@Ne-21我的哥你看看这该咋整-油猴中文网

雄壮的奥特曼 发表于 2022-7-18 15:23:45

@Ne-21我的哥你看看这该咋整

!(data/attachment/forum/202207/18/152243udl20rnu46r423l1.jpg)!(data/attachment/forum/202207/18/152254a5oubgyuibagy5t6.jpg)
就咋把打印出来的那些不要的内容咋搞走[手动迷惑]
ps：py代码

steven026 发表于 2022-7-18 15:41:32

本帖最后由 steven026 于 2022-7-18 15:51 编辑

> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

> 本帖最后由 steven026 于 2022-7-18 15:49 编辑

![微信截图_20220718154016.png](data/attachment/forum/202207/18/154103ja9rurrhzsll9911.png)
~~不懂python~~
~~你可以参考js的带标签的用html，不带标签的用text~~
看错了

直接全部替换python里的\xa0或者js里的` `不就行了么
js代码是`.replaceAll(" ","")`
python应该也差不多

雄壮的奥特曼 发表于 2022-7-18 16:27:26

steven026 发表于 2022-7-18 15:41
> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

好嘞我这就去看看

雄壮的奥特曼 发表于 2022-7-18 16:31:37

本帖最后由雄壮的奥特曼于 2022-7-18 16:33 编辑

steven026 发表于 2022-7-18 15:41
> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

!%5Bimage.png%5D(data/attachment/forum/202207/18/163111qqcducxjf3axzqea.png)不太行啊栓q了

hysaoh 发表于 2022-7-18 17:00:05

本帖最后由 hysaoh 于 2022-7-18 17:30 编辑

> 本帖最后由 hysaoh 于 2022-7-18 17:13 编辑

> 本帖最后由 hysaoh 于 2022-7-18 17:05 编辑

请考虑使用python的**BeautifulSoup**库，对网页进行解析。
获取到soup，使用.text方法p即可获得文本。虽然在Pycharm中可以看到NBSP但是记事本看空格，可以直接保存
例如soup.text。
下面是我对一个小说网站书架的爬取，可以参考一下。
小说网址为https://www.bswtan.com/
账号，密码因为隐私原因已经略去。
```
# -*- coding: utf-8 -*-
"""
@Author       ：Cat
@Date       : 2022年 05月 16日
@Introduction ：A Lazy Cat
"""
import re
import time

import requests
from bs4 import BeautifulSoup

def can_read(uri):
sss = session.get("https://www.bswtan.com/%s" % uri,timeout=3, proxies=proxies)
sss.encoding = "UTF-8"
soup = BeautifulSoup(sss.text, "html.parser")
soup_select = soup.select("#content")
# 小说长度
len1 = len(re.sub(r'<.*?>|&nbsp', '', str(soup_select)))
if len1 > 2000:
   return True
else:
   return False

if __name__ == '__main__':

url = "https://www.bswtan.com/login.php"
username = "用户名已经替换"
password = "密码已经替换"

payload = 'LoginForm%5Busername%5D={0}&LoginForm%5Bpassword%5D={1}'.format(username, password)
headers = {
   'Content-Type': 'application/x-www-form-urlencoded',

}
#设置代理，如果不需要代理就删掉下面这一行，并查找替换掉proxies=proxies。
proxies = {
   'https': 'SOCKS5://127.0.0.1:7890'}
session = requests.session()

session.post(url, headers=headers, data=payload, timeout=10, proxies=proxies)
get = session.get("https://www.bswtan.com/modules/article/bookcase.php", timeout=3, proxies=proxies)
get.encoding = "utf-8"
print(get.text)
soup = BeautifulSoup(get.text, "html.parser")
select = soup.select('.grid').select('tr td >a')
book_name = select
up = soup.select('.grid').select('tr td span>a')
book = list(map(lambda x: x.string, book_name))
up = list(map(lambda x: (x.get("href"), x.string), up))
a = up
b = up
is_update = []
booklist = {}

read = can_read(a)
for i in range(len(a)):
   booklist] = , b, (not a == b), ["否", "是"])]]
for (k, v) in booklist.items():
   if v:
         print("《%s》有更新!\n\t最新章节为:%s\t是否可读?:%s\n\t阅读进度为:%s" % (k, v, v, v))

```

Ne-21 发表于 2022-7-18 17:02:01

本帖最后由 Ne-21 于 2022-7-18 18:37 编辑

我喜欢暴力的，直接replace
!(data/attachment/forum/202207/18/183706rjaul4ywsszw1yuw.png)
!(data/attachment/forum/202207/18/183716mo2cjfp3hfjuhcto.png)

李恒道 发表于 2022-7-18 17:23:30

Ne-21 发表于 2022-7-18 17:02
xpath('normalize-space(.//div[@class="bookinfo"]/p/text())')

试试这样可不可以，

ne21我的神！

Ne-21 发表于 2022-7-18 18:38:14

李恒道发表于 2022-7-18 17:23
ne21我的神！

{:4_94:}道道永远是我男神！！！！！

steven026 发表于 2022-7-18 18:55:32

!(data/attachment/forum/202207/18/185319c0zee2u4yo09ttpc.png)

闲着没事，用油猴的方法写了个爬虫，估计参考意义不是很大

思路2个，
一个是获取js文本的时候替换所有的html空格
另一个是对python的数组进行遍历替换所有的python空格

雄壮的奥特曼 发表于 2022-7-18 21:03:38

steven026 发表于 2022-7-18 18:55
!(data/attachment/forum/202207/18/185319c0zee2u4yo09ttpc.png)

闲着没 ...

卧槽卧槽长姿势了卧槽油猴竟然可以写爬虫属实是我坐井观天了{:4_115:}谢谢了老哥！我受到了启发栓q！！

页: [1] 2

油猴中文网's Archiver

@Ne-21我的哥 你看看这该咋整

@Ne-21我的哥你看看这该咋整