雄壮的奥特曼 发表于 2022-7-18 15:23:45

@Ne-21我的哥 你看看这该咋整

!(data/attachment/forum/202207/18/152243udl20rnu46r423l1.jpg)!(data/attachment/forum/202207/18/152254a5oubgyuibagy5t6.jpg)
就咋把打印出来的那些不要的内容咋搞走[手动迷惑]
ps:py代码

steven026 发表于 2022-7-18 15:41:32

本帖最后由 steven026 于 2022-7-18 15:51 编辑

> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

> 本帖最后由 steven026 于 2022-7-18 15:49 编辑

![微信截图_20220718154016.png](data/attachment/forum/202207/18/154103ja9rurrhzsll9911.png)
~~不懂python~~
~~你可以参考js的带标签的用html,不带标签的用text~~
看错了

直接全部替换python里的\xa0或者js里的` `不就行了么
js代码是`.replaceAll(" ","")`
python应该也差不多

雄壮的奥特曼 发表于 2022-7-18 16:27:26

steven026 发表于 2022-7-18 15:41
> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

> 本帖最后由 steven026 于 2022-7-18 15:50 编辑


好嘞 我这就去看看

雄壮的奥特曼 发表于 2022-7-18 16:31:37

本帖最后由 雄壮的奥特曼 于 2022-7-18 16:33 编辑

steven026 发表于 2022-7-18 15:41
> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

!%5Bimage.png%5D(data/attachment/forum/202207/18/163111qqcducxjf3axzqea.png)不太行啊 栓q了

hysaoh 发表于 2022-7-18 17:00:05

本帖最后由 hysaoh 于 2022-7-18 17:30 编辑

> 本帖最后由 hysaoh 于 2022-7-18 17:13 编辑

> 本帖最后由 hysaoh 于 2022-7-18 17:05 编辑

请考虑使用python的**BeautifulSoup**库,对网页进行解析。
获取到soup,使用.text方法p即可获得文本。虽然在Pycharm中可以看到NBSP但是记事本看空格,可以直接保存
例如soup.text。
下面是我对一个小说网站书架的爬取,可以参考一下。
小说网址为https://www.bswtan.com/
账号,密码因为隐私原因已经略去。
```
# -*- coding: utf-8 -*-
"""
@Author         :Cat
@Date         : 2022年 05月 16日
@Introduction   :A Lazy Cat
"""
import re
import time

import requests
from bs4 import BeautifulSoup


def can_read(uri):
    sss = session.get("https://www.bswtan.com/%s" % uri,timeout=3, proxies=proxies)
    sss.encoding = "UTF-8"
    soup = BeautifulSoup(sss.text, "html.parser")
    soup_select = soup.select("#content")
    # 小说长度
    len1 = len(re.sub(r'<.*?>|&nbsp', '', str(soup_select)))
    if len1 > 2000:
      return True
    else:
      return False


if __name__ == '__main__':

    url = "https://www.bswtan.com/login.php"
    username = "用户名已经替换"
    password = "密码已经替换"

    payload = 'LoginForm%5Busername%5D={0}&LoginForm%5Bpassword%5D={1}'.format(username, password)
    headers = {
      'Content-Type': 'application/x-www-form-urlencoded',

    }
    #设置代理,如果不需要代理就删掉下面这一行,并查找替换掉proxies=proxies。
    proxies = {
      'https': 'SOCKS5://127.0.0.1:7890'}
    session = requests.session()

    session.post(url, headers=headers, data=payload, timeout=10, proxies=proxies)
    get = session.get("https://www.bswtan.com/modules/article/bookcase.php", timeout=3, proxies=proxies)
    get.encoding = "utf-8"
    print(get.text)
    soup = BeautifulSoup(get.text, "html.parser")
    select = soup.select('.grid').select('tr td >a')
    book_name = select
    up = soup.select('.grid').select('tr td span>a')
    book = list(map(lambda x: x.string, book_name))
    up = list(map(lambda x: (x.get("href"), x.string), up))
    a = up
    b = up
    is_update = []
    booklist = {}

    read = can_read(a)
    for i in range(len(a)):
      booklist] = , b, (not a == b), ["否", "是"])]]
    for (k, v) in booklist.items():
      if v:
            print("《%s》有更新!\n\t最新章节为:%s\t是否可读?:%s\n\t阅读进度为:%s" % (k, v, v, v))

```

Ne-21 发表于 2022-7-18 17:02:01

本帖最后由 Ne-21 于 2022-7-18 18:37 编辑

我喜欢暴力的,直接replace
!(data/attachment/forum/202207/18/183706rjaul4ywsszw1yuw.png)
!(data/attachment/forum/202207/18/183716mo2cjfp3hfjuhcto.png)

李恒道 发表于 2022-7-18 17:23:30

Ne-21 发表于 2022-7-18 17:02
xpath('normalize-space(.//div[@class="bookinfo"]/p/text())')

试试这样可不可以,


ne21我的神!

Ne-21 发表于 2022-7-18 18:38:14

李恒道 发表于 2022-7-18 17:23
ne21我的神!

{:4_94:}道道永远是我男神!!!!!

steven026 发表于 2022-7-18 18:55:32

!(data/attachment/forum/202207/18/185319c0zee2u4yo09ttpc.png)

闲着没事,用油猴的方法写了个爬虫,估计参考意义不是很大

思路2个,
一个是获取js文本的时候替换所有的html空格
另一个是对python的数组进行遍历替换所有的python空格

雄壮的奥特曼 发表于 2022-7-18 21:03:38

steven026 发表于 2022-7-18 18:55
!(data/attachment/forum/202207/18/185319c0zee2u4yo09ttpc.png)

闲着没 ...

卧槽卧槽长姿势了卧槽 油猴竟然可以写爬虫 属实是我坐井观天了{:4_115:}谢谢了老哥!我受到了启发 栓q!!
页: [1] 2
查看完整版本: @Ne-21我的哥 你看看这该咋整