@Ne-21我的哥你看看这该咋整

雄壮的奥特曼 · 发表于 2022-7-18 15:23:45

就咋把打印出来的那些不要的内容咋搞走[手动迷惑]
ps：py代码

steven026 · 发表于 2022-7-18 15:41:32

本帖最后由 steven026 于 2022-7-18 15:51 编辑

本帖最后由 steven026 于 2022-7-18 15:50 编辑

本帖最后由 steven026 于 2022-7-18 15:50 编辑

本帖最后由 steven026 于 2022-7-18 15:49 编辑

微信截图_20220718154016.png
~~不懂python~~
~~你可以参考js的带标签的用html，不带标签的用text~~
看错了

直接全部替换python里的\xa0或者js里的 不就行了么
js代码是.replaceAll(" ","")
python应该也差不多

雄壮的奥特曼 · 发表于 2022-7-18 16:27:26

steven026 发表于 2022-7-18 15:41
[md]> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

好嘞我这就去看看

雄壮的奥特曼 · 发表于 2022-7-18 16:31:37

本帖最后由雄壮的奥特曼于 2022-7-18 16:33 编辑

本帖最后由 steven026 于 2022-7-18 15:50 编辑

本帖最后由 steven026 于 2022-7-18 15:50 编辑
[/quote]
[img]!%5Bimage.png%5D(data/attachment/forum/202207/18/163111qqcducxjf3axzqea.png)[/img]不太行啊栓

hysaoh · 发表于 2022-7-18 17:00:05

本帖最后由 hysaoh 于 2022-7-18 17:30 编辑

本帖最后由 hysaoh 于 2022-7-18 17:13 编辑

本帖最后由 hysaoh 于 2022-7-18 17:05 编辑

请考虑使用python的BeautifulSoup库，对网页进行解析。
获取到soup，使用.text方法p即可获得文本。虽然在Pycharm中可以看到NBSP但是记事本看空格，可以直接保存
例如soup.text。
下面是我对一个小说网站书架的爬取，可以参考一下。
小说网址为https://www.bswtan.com/
账号，密码因为隐私原因已经略去。

# -*- coding: utf-8 -*-
"""
@Author         ：Cat
@Date           : 2022年 05月 16日
@Introduction   ：A Lazy Cat
"""
import re
import time

import requests
from bs4 import BeautifulSoup

def can_read(uri):
    sss = session.get("https://www.bswtan.com/%s" % uri,timeout=3, proxies=proxies)
    sss.encoding = "UTF-8"
    soup = BeautifulSoup(sss.text, "html.parser")
    soup_select = soup.select("#content")
    # 小说长度
    len1 = len(re.sub(r'<.*?>|&nbsp', '', str(soup_select)))
    if len1 > 2000:
        return True
    else:
        return False

if __name__ == '__main__':

    url = "https://www.bswtan.com/login.php"
    username = "用户名已经替换"
    password = "密码已经替换"

    payload = 'LoginForm%5Busername%5D={0}&LoginForm%5Bpassword%5D={1}'.format(username, password)
    headers = {
        'Content-Type': 'application/x-www-form-urlencoded',

    }
    #设置代理，如果不需要代理就删掉下面这一行，并查找替换掉proxies=proxies。
    proxies = {
        'https': 'SOCKS5://127.0.0.1:7890'}
    session = requests.session()

    session.post(url, headers=headers, data=payload, timeout=10, proxies=proxies)
    get = session.get("https://www.bswtan.com/modules/article/bookcase.php", timeout=3, proxies=proxies)
    get.encoding = "utf-8"
    print(get.text)
    soup = BeautifulSoup(get.text, "html.parser")
    select = soup.select('.grid')[0].select('tr td >a')
    book_name = select[0::2]
    up = soup.select('.grid')[0].select('tr td span>a')
    book = list(map(lambda x: x.string, book_name))
    up = list(map(lambda x: (x.get("href"), x.string), up))
    a = up[0::2]
    b = up[1::2]
    is_update = []
    booklist = {}

    read = can_read(a[1][0])
    for i in range(len(a)):
        booklist[book[i]] = [a[i][1], b[i][1], (not a[i] == b[i]), ["否", "是"][can_read(a[i][0])]]
    for (k, v) in booklist.items():
        if v[2]:
            print("《%s》有更新!\n\t最新章节为:%s\t是否可读?:%s\n\t阅读进度为:%s" % (k, v[0], v[3], v[1]))

Ne-21 · 发表于 2022-7-18 17:02:01

本帖最后由 Ne-21 于 2022-7-18 18:37 编辑

我喜欢暴力的，直接replace
QQ截图20220718183541.png
QQ截图20220718183612.png

李恒道 · 发表于 2022-7-18 17:23:30

Ne-21 发表于 2022-7-18 17:02
xpath('normalize-space(.//div[@class="bookinfo"]/p/text())')

试试这样可不可以，

ne21我的神！

Ne-21 · 发表于 2022-7-18 18:38:14

李恒道发表于 2022-7-18 17:23
ne21我的神！

道道永远是我男神！！！！！

steven026 · 发表于 2022-7-18 18:55:32

QQ截图20220718185237.png

闲着没事，用油猴的方法写了个爬虫，估计参考意义不是很大

思路2个，
一个是获取js文本的时候替换所有的html空格
另一个是对python的数组进行遍历替换所有的python空格

雄壮的奥特曼 · 发表于 2022-7-18 21:03:38

steven026 发表于 2022-7-18 18:55
[md]![QQ截图20220718185237.png](data/attachment/forum/202207/18/185319c0zee2u4yo09ttpc.png)

闲着没 ...

卧槽卧槽长姿势了卧槽油猴竟然可以写爬虫属实是我坐井观天了

谢谢了老哥！我受到了启发栓q！！

@Ne-21我的哥你看看这该咋整

发表回复

浏览过的版块

油中2周年

油中3周年

荣誉开发者

新人进步奖

生态建设者

新人报道

挑战者 lv2

喜迎中秋

@Ne-21我的哥 你看看这该咋整

发表回复

浏览过的版块

油中2周年

油中3周年

荣誉开发者

新人进步奖

生态建设者

新人报道

挑战者 lv2

喜迎中秋

@Ne-21我的哥你看看这该咋整