上一主题 下一主题
ScriptCat,新一代的脚本管理器脚本站,与全世界分享你的用户脚本油猴脚本开发指南教程目录
12下一页
返回列表 发新帖

@Ne-21我的哥 你看看这该咋整

[复制链接]
  • TA的每日心情

    昨天 10:26
  • 签到天数: 50 天

    [LV.5]常住居民I

    8

    主题

    56

    帖子

    70

    积分

    初级工程师

    Rank: 4

    积分
    70
    发表于 2022-7-18 15:23:45 | 显示全部楼层 | 阅读模式
    1油猫币

    ec55e19a73235537e9a4ca21f2e12e3.jpg25be63122a264e506e8e78f4e13d848.jpg
    就咋把打印出来的那些不要的内容咋搞走[手动迷惑]
    ps:py代码

  • TA的每日心情
    慵懒
    3 小时前
  • 签到天数: 56 天

    [LV.5]常住居民I

    5

    主题

    119

    帖子

    269

    积分

    荣誉开发者

    Rank: 10Rank: 10Rank: 10

    积分
    269

    荣誉开发者猫咪币纪念章

    发表于 2022-7-18 15:41:32 | 显示全部楼层

    本帖最后由 steven026 于 2022-7-18 15:51 编辑

    本帖最后由 steven026 于 2022-7-18 15:50 编辑

    本帖最后由 steven026 于 2022-7-18 15:50 编辑

    本帖最后由 steven026 于 2022-7-18 15:49 编辑

    微信截图_20220718154016.png
    不懂python
    你可以参考js的带标签的用html,不带标签的用text
    看错了

    直接全部替换python里的\xa0或者js里的 不就行了么
    js代码是.replaceAll(" ","")
    python应该也差不多

    回复

    使用道具 举报

  • TA的每日心情

    昨天 10:26
  • 签到天数: 50 天

    [LV.5]常住居民I

    8

    主题

    56

    帖子

    70

    积分

    初级工程师

    Rank: 4

    积分
    70
    发表于 2022-7-18 16:27:26 | 显示全部楼层
    steven026 发表于 2022-7-18 15:41
    [md]> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

    > 本帖最后由 steven026 于 2022-7-18 15:50 编辑

    好嘞 我这就去看看
    回复

    使用道具 举报

  • TA的每日心情

    昨天 10:26
  • 签到天数: 50 天

    [LV.5]常住居民I

    8

    主题

    56

    帖子

    70

    积分

    初级工程师

    Rank: 4

    积分
    70
    发表于 2022-7-18 16:31:37 | 显示全部楼层

    本帖最后由 雄壮的奥特曼 于 2022-7-18 16:33 编辑

    本帖最后由 steven026 于 2022-7-18 15:50 编辑

    本帖最后由 steven026 于 2022-7-18 15:50 编辑
    [/quote]
    [img]!%5Bimage.png%5D(data/attachment/forum/202207/18/163111qqcducxjf3axzqea.png)[/img]不太行啊 栓

    回复

    使用道具 举报

  • TA的每日心情
    开心
    2022-3-8 00:18
  • 签到天数: 2 天

    [LV.1]初来乍到

    34

    主题

    202

    帖子

    252

    积分

    版主

    Rank: 8Rank: 8

    积分
    252

    猫咪币纪念章突出贡献热心会员活跃会员

    发表于 2022-7-18 17:00:05 | 显示全部楼层

    本帖最后由 hysaoh 于 2022-7-18 17:30 编辑

    本帖最后由 hysaoh 于 2022-7-18 17:13 编辑

    本帖最后由 hysaoh 于 2022-7-18 17:05 编辑

    请考虑使用python的BeautifulSoup库,对网页进行解析。
    获取到soup,使用.text方法p即可获得文本。虽然在Pycharm中可以看到NBSP但是记事本看空格,可以直接保存
    例如soup.text。
    下面是我对一个小说网站书架的爬取,可以参考一下。
    小说网址为https://www.bswtan.com/
    账号,密码因为隐私原因已经略去。

    # -*- coding: utf-8 -*-
    """
    @Author         :Cat
    @Date           : 2022年 05月 16日
    @Introduction   :A Lazy Cat
    """
    import re
    import time
    
    import requests
    from bs4 import BeautifulSoup
    
    def can_read(uri):
        sss = session.get("https://www.bswtan.com/%s" % uri,timeout=3, proxies=proxies)
        sss.encoding = "UTF-8"
        soup = BeautifulSoup(sss.text, "html.parser")
        soup_select = soup.select("#content")
        # 小说长度
        len1 = len(re.sub(r'<.*?>|&nbsp', '', str(soup_select)))
        if len1 > 2000:
            return True
        else:
            return False
    
    if __name__ == '__main__':
    
        url = "https://www.bswtan.com/login.php"
        username = "用户名已经替换"
        password = "密码已经替换"
    
        payload = 'LoginForm%5Busername%5D={0}&LoginForm%5Bpassword%5D={1}'.format(username, password)
        headers = {
            'Content-Type': 'application/x-www-form-urlencoded',
    
        }
        #设置代理,如果不需要代理就删掉下面这一行,并查找替换掉proxies=proxies。
        proxies = {
            'https': 'SOCKS5://127.0.0.1:7890'}
        session = requests.session()
    
        session.post(url, headers=headers, data=payload, timeout=10, proxies=proxies)
        get = session.get("https://www.bswtan.com/modules/article/bookcase.php", timeout=3, proxies=proxies)
        get.encoding = "utf-8"
        print(get.text)
        soup = BeautifulSoup(get.text, "html.parser")
        select = soup.select('.grid')[0].select('tr td >a')
        book_name = select[0::2]
        up = soup.select('.grid')[0].select('tr td span>a')
        book = list(map(lambda x: x.string, book_name))
        up = list(map(lambda x: (x.get("href"), x.string), up))
        a = up[0::2]
        b = up[1::2]
        is_update = []
        booklist = {}
    
        read = can_read(a[1][0])
        for i in range(len(a)):
            booklist[book[i]] = [a[i][1], b[i][1], (not a[i] == b[i]), ["否", "是"][can_read(a[i][0])]]
        for (k, v) in booklist.items():
            if v[2]:
                print("《%s》有更新!\n\t最新章节为:%s\t是否可读?:%s\n\t阅读进度为:%s" % (k, v[0], v[3], v[1]))
    
    一叶叶,一声声,空阶滴到明。
    回复

    使用道具 举报

  • TA的每日心情
    开心
    昨天 09:04
  • 签到天数: 167 天

    [LV.7]常住居民III

    25

    主题

    647

    帖子

    6280

    积分

    荣誉开发者

    精通各种语言的HelloWord!

    Rank: 10Rank: 10Rank: 10

    积分
    6280

    猫咪币纪念章活跃会员三好学生热心会员中秋纪念章国庆纪念章荣誉开发者家财万贯

    发表于 2022-7-18 17:02:01 | 显示全部楼层

    本帖最后由 Ne-21 于 2022-7-18 18:37 编辑

    我喜欢暴力的,直接replace
    QQ截图20220718183541.png
    QQ截图20220718183612.png

    回复

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 57 天

    [LV.5]常住居民I

    354

    主题

    3128

    帖子

    3129

    积分

    管理员

    非物质文化遗产社会摇传承人

    Rank: 10Rank: 10Rank: 10

    积分
    3129

    猫咪币纪念章国庆纪念章中秋纪念章荣誉开发者家财万贯管理员

    发表于 2022-7-18 17:23:30 | 显示全部楼层
    Ne-21 发表于 2022-7-18 17:02
    xpath('normalize-space(.//div[@class="bookinfo"]/p/text())')

    试试这样可不可以,

    ne21我的神!
    混的人。
    ------------------------------------------
    進撃!永遠の帝国の破壊虎---李恒道
    个人宣言:この世界で私に胜てる人とコードはまだ生まれていません。死ぬのが怖くなければ来てください。
    回复

    使用道具 举报

  • TA的每日心情
    开心
    昨天 09:04
  • 签到天数: 167 天

    [LV.7]常住居民III

    25

    主题

    647

    帖子

    6280

    积分

    荣誉开发者

    精通各种语言的HelloWord!

    Rank: 10Rank: 10Rank: 10

    积分
    6280

    猫咪币纪念章活跃会员三好学生热心会员中秋纪念章国庆纪念章荣誉开发者家财万贯

    发表于 2022-7-18 18:38:14 | 显示全部楼层

    道道永远是我男神!!!!!
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    3 小时前
  • 签到天数: 56 天

    [LV.5]常住居民I

    5

    主题

    119

    帖子

    269

    积分

    荣誉开发者

    Rank: 10Rank: 10Rank: 10

    积分
    269

    荣誉开发者猫咪币纪念章

    发表于 2022-7-18 18:55:32 | 显示全部楼层

    QQ截图20220718185237.png

    闲着没事,用油猴的方法写了个爬虫,估计参考意义不是很大

    思路2个,
    一个是获取js文本的时候替换所有的html空格
    另一个是对python的数组进行遍历替换所有的python空格

    回复

    使用道具 举报

  • TA的每日心情

    昨天 10:26
  • 签到天数: 50 天

    [LV.5]常住居民I

    8

    主题

    56

    帖子

    70

    积分

    初级工程师

    Rank: 4

    积分
    70
    发表于 2022-7-18 21:03:38 | 显示全部楼层
    steven026 发表于 2022-7-18 18:55
    [md]![QQ截图20220718185237.png](data/attachment/forum/202207/18/185319c0zee2u4yo09ttpc.png)

    闲着没 ...

    卧槽卧槽长姿势了卧槽 油猴竟然可以写爬虫 属实是我坐井观天了谢谢了老哥!我受到了启发 栓q!!
    回复

    使用道具 举报

    发表回复

    本版积分规则

    快速回复 返回顶部 返回列表