@Ne-21我的哥 你看看这该咋整
!(data/attachment/forum/202207/18/152243udl20rnu46r423l1.jpg)!(data/attachment/forum/202207/18/152254a5oubgyuibagy5t6.jpg)就咋把打印出来的那些不要的内容咋搞走[手动迷惑]
ps:py代码 本帖最后由 steven026 于 2022-7-18 15:51 编辑
> 本帖最后由 steven026 于 2022-7-18 15:50 编辑
> 本帖最后由 steven026 于 2022-7-18 15:50 编辑
> 本帖最后由 steven026 于 2022-7-18 15:49 编辑
![微信截图_20220718154016.png](data/attachment/forum/202207/18/154103ja9rurrhzsll9911.png)
~~不懂python~~
~~你可以参考js的带标签的用html,不带标签的用text~~
看错了
直接全部替换python里的\xa0或者js里的` `不就行了么
js代码是`.replaceAll(" ","")`
python应该也差不多 steven026 发表于 2022-7-18 15:41
> 本帖最后由 steven026 于 2022-7-18 15:50 编辑
> 本帖最后由 steven026 于 2022-7-18 15:50 编辑
好嘞 我这就去看看 本帖最后由 雄壮的奥特曼 于 2022-7-18 16:33 编辑
steven026 发表于 2022-7-18 15:41
> 本帖最后由 steven026 于 2022-7-18 15:50 编辑
> 本帖最后由 steven026 于 2022-7-18 15:50 编辑
!%5Bimage.png%5D(data/attachment/forum/202207/18/163111qqcducxjf3axzqea.png)不太行啊 栓q了 本帖最后由 hysaoh 于 2022-7-18 17:30 编辑
> 本帖最后由 hysaoh 于 2022-7-18 17:13 编辑
> 本帖最后由 hysaoh 于 2022-7-18 17:05 编辑
请考虑使用python的**BeautifulSoup**库,对网页进行解析。
获取到soup,使用.text方法p即可获得文本。虽然在Pycharm中可以看到NBSP但是记事本看空格,可以直接保存
例如soup.text。
下面是我对一个小说网站书架的爬取,可以参考一下。
小说网址为https://www.bswtan.com/
账号,密码因为隐私原因已经略去。
```
# -*- coding: utf-8 -*-
"""
@Author :Cat
@Date : 2022年 05月 16日
@Introduction :A Lazy Cat
"""
import re
import time
import requests
from bs4 import BeautifulSoup
def can_read(uri):
sss = session.get("https://www.bswtan.com/%s" % uri,timeout=3, proxies=proxies)
sss.encoding = "UTF-8"
soup = BeautifulSoup(sss.text, "html.parser")
soup_select = soup.select("#content")
# 小说长度
len1 = len(re.sub(r'<.*?>| ', '', str(soup_select)))
if len1 > 2000:
return True
else:
return False
if __name__ == '__main__':
url = "https://www.bswtan.com/login.php"
username = "用户名已经替换"
password = "密码已经替换"
payload = 'LoginForm%5Busername%5D={0}&LoginForm%5Bpassword%5D={1}'.format(username, password)
headers = {
'Content-Type': 'application/x-www-form-urlencoded',
}
#设置代理,如果不需要代理就删掉下面这一行,并查找替换掉proxies=proxies。
proxies = {
'https': 'SOCKS5://127.0.0.1:7890'}
session = requests.session()
session.post(url, headers=headers, data=payload, timeout=10, proxies=proxies)
get = session.get("https://www.bswtan.com/modules/article/bookcase.php", timeout=3, proxies=proxies)
get.encoding = "utf-8"
print(get.text)
soup = BeautifulSoup(get.text, "html.parser")
select = soup.select('.grid').select('tr td >a')
book_name = select
up = soup.select('.grid').select('tr td span>a')
book = list(map(lambda x: x.string, book_name))
up = list(map(lambda x: (x.get("href"), x.string), up))
a = up
b = up
is_update = []
booklist = {}
read = can_read(a)
for i in range(len(a)):
booklist] = , b, (not a == b), ["否", "是"])]]
for (k, v) in booklist.items():
if v:
print("《%s》有更新!\n\t最新章节为:%s\t是否可读?:%s\n\t阅读进度为:%s" % (k, v, v, v))
``` 本帖最后由 Ne-21 于 2022-7-18 18:37 编辑
我喜欢暴力的,直接replace
!(data/attachment/forum/202207/18/183706rjaul4ywsszw1yuw.png)
!(data/attachment/forum/202207/18/183716mo2cjfp3hfjuhcto.png) Ne-21 发表于 2022-7-18 17:02
xpath('normalize-space(.//div[@class="bookinfo"]/p/text())')
试试这样可不可以,
ne21我的神! 李恒道 发表于 2022-7-18 17:23
ne21我的神!
{:4_94:}道道永远是我男神!!!!! !(data/attachment/forum/202207/18/185319c0zee2u4yo09ttpc.png)
闲着没事,用油猴的方法写了个爬虫,估计参考意义不是很大
思路2个,
一个是获取js文本的时候替换所有的html空格
另一个是对python的数组进行遍历替换所有的python空格 steven026 发表于 2022-7-18 18:55
!(data/attachment/forum/202207/18/185319c0zee2u4yo09ttpc.png)
闲着没 ...
卧槽卧槽长姿势了卧槽 油猴竟然可以写爬虫 属实是我坐井观天了{:4_115:}谢谢了老哥!我受到了启发 栓q!!
页:
[1]
2