上一主题 下一主题
ScriptCat,新一代的脚本管理器脚本站,与全世界分享你的用户脚本油猴脚本开发指南教程目录
12下一页
返回列表 发新帖

@Ne-21我的哥 你看看这该咋整

[复制链接]
  • TA的每日心情

    2024-5-19 19:56
  • 签到天数: 361 天

    [LV.8]以坛为家I

    11

    主题

    59

    回帖

    214

    积分

    高级工程师

    积分
    214

    油中2周年油中3周年

    发表于 2022-7-18 15:23:45 | 显示全部楼层 | 阅读模式
    悬赏1油猫币未解决

    ec55e19a73235537e9a4ca21f2e12e3.jpg25be63122a264e506e8e78f4e13d848.jpg
    就咋把打印出来的那些不要的内容咋搞走[手动迷惑]
    ps:py代码

  • TA的每日心情
    慵懒
    昨天 08:54
  • 签到天数: 812 天

    [LV.10]以坛为家III

    31

    主题

    552

    回帖

    1556

    积分

    荣誉开发者

    积分
    1556

    荣誉开发者新人进步奖油中2周年生态建设者新人报道挑战者 lv2油中3周年喜迎中秋

    发表于 2022-7-18 15:41:32 | 显示全部楼层

    本帖最后由 steven026 于 2022-7-18 15:51 编辑

    本帖最后由 steven026 于 2022-7-18 15:50 编辑

    本帖最后由 steven026 于 2022-7-18 15:50 编辑

    本帖最后由 steven026 于 2022-7-18 15:49 编辑

    微信截图_20220718154016.png
    不懂python
    你可以参考js的带标签的用html,不带标签的用text
    看错了

    直接全部替换python里的\xa0或者js里的 不就行了么
    js代码是.replaceAll(" ","")
    python应该也差不多

    回复

    使用道具 举报

  • TA的每日心情

    2024-5-19 19:56
  • 签到天数: 361 天

    [LV.8]以坛为家I

    11

    主题

    59

    回帖

    214

    积分

    高级工程师

    积分
    214

    油中2周年油中3周年

    发表于 2022-7-18 16:27:26 | 显示全部楼层
    steven026 发表于 2022-7-18 15:41
    [md]> 本帖最后由 steven026 于 2022-7-18 15:50 编辑

    > 本帖最后由 steven026 于 2022-7-18 15:50 编辑

    好嘞 我这就去看看
    回复

    使用道具 举报

  • TA的每日心情

    2024-5-19 19:56
  • 签到天数: 361 天

    [LV.8]以坛为家I

    11

    主题

    59

    回帖

    214

    积分

    高级工程师

    积分
    214

    油中2周年油中3周年

    发表于 2022-7-18 16:31:37 | 显示全部楼层

    本帖最后由 雄壮的奥特曼 于 2022-7-18 16:33 编辑

    本帖最后由 steven026 于 2022-7-18 15:50 编辑

    本帖最后由 steven026 于 2022-7-18 15:50 编辑
    [/quote]
    [img]!%5Bimage.png%5D(data/attachment/forum/202207/18/163111qqcducxjf3axzqea.png)[/img]不太行啊 栓

    回复

    使用道具 举报

  • TA的每日心情
    开心
    2024-2-28 14:15
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    37

    主题

    233

    回帖

    363

    积分

    版主

    积分
    363

    油中2周年生态建设者

    发表于 2022-7-18 17:00:05 | 显示全部楼层

    本帖最后由 hysaoh 于 2022-7-18 17:30 编辑

    本帖最后由 hysaoh 于 2022-7-18 17:13 编辑

    本帖最后由 hysaoh 于 2022-7-18 17:05 编辑

    请考虑使用python的BeautifulSoup库,对网页进行解析。
    获取到soup,使用.text方法p即可获得文本。虽然在Pycharm中可以看到NBSP但是记事本看空格,可以直接保存
    例如soup.text。
    下面是我对一个小说网站书架的爬取,可以参考一下。
    小说网址为https://www.bswtan.com/
    账号,密码因为隐私原因已经略去。

    # -*- coding: utf-8 -*-
    """
    @Author         :Cat
    @Date           : 2022年 05月 16日
    @Introduction   :A Lazy Cat
    """
    import re
    import time
    
    import requests
    from bs4 import BeautifulSoup
    
    def can_read(uri):
        sss = session.get("https://www.bswtan.com/%s" % uri,timeout=3, proxies=proxies)
        sss.encoding = "UTF-8"
        soup = BeautifulSoup(sss.text, "html.parser")
        soup_select = soup.select("#content")
        # 小说长度
        len1 = len(re.sub(r'<.*?>|&nbsp', '', str(soup_select)))
        if len1 > 2000:
            return True
        else:
            return False
    
    if __name__ == '__main__':
    
        url = "https://www.bswtan.com/login.php"
        username = "用户名已经替换"
        password = "密码已经替换"
    
        payload = 'LoginForm%5Busername%5D={0}&LoginForm%5Bpassword%5D={1}'.format(username, password)
        headers = {
            'Content-Type': 'application/x-www-form-urlencoded',
    
        }
        #设置代理,如果不需要代理就删掉下面这一行,并查找替换掉proxies=proxies。
        proxies = {
            'https': 'SOCKS5://127.0.0.1:7890'}
        session = requests.session()
    
        session.post(url, headers=headers, data=payload, timeout=10, proxies=proxies)
        get = session.get("https://www.bswtan.com/modules/article/bookcase.php", timeout=3, proxies=proxies)
        get.encoding = "utf-8"
        print(get.text)
        soup = BeautifulSoup(get.text, "html.parser")
        select = soup.select('.grid')[0].select('tr td >a')
        book_name = select[0::2]
        up = soup.select('.grid')[0].select('tr td span>a')
        book = list(map(lambda x: x.string, book_name))
        up = list(map(lambda x: (x.get("href"), x.string), up))
        a = up[0::2]
        b = up[1::2]
        is_update = []
        booklist = {}
    
        read = can_read(a[1][0])
        for i in range(len(a)):
            booklist[book[i]] = [a[i][1], b[i][1], (not a[i] == b[i]), ["否", "是"][can_read(a[i][0])]]
        for (k, v) in booklist.items():
            if v[2]:
                print("《%s》有更新!\n\t最新章节为:%s\t是否可读?:%s\n\t阅读进度为:%s" % (k, v[0], v[3], v[1]))
    
    一叶叶,一声声,空阶滴到明。
    回复

    使用道具 举报

  • TA的每日心情
    开心
    昨天 20:36
  • 签到天数: 880 天

    [LV.10]以坛为家III

    30

    主题

    732

    回帖

    7357

    积分

    荣誉开发者

    精通各种语言的HelloWord!

    积分
    7357

    荣誉开发者油中2周年生态建设者油中3周年挑战者 lv2

    发表于 2022-7-18 17:02:01 | 显示全部楼层

    本帖最后由 Ne-21 于 2022-7-18 18:37 编辑

    我喜欢暴力的,直接replace
    QQ截图20220718183541.png
    QQ截图20220718183612.png

    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2024-10-28 07:07
  • 签到天数: 193 天

    [LV.7]常住居民III

    712

    主题

    5965

    回帖

    6763

    积分

    管理员

    非物质文化遗产社会摇传承人

    积分
    6763

    荣誉开发者喜迎中秋油中2周年生态建设者

    发表于 2022-7-18 17:23:30 | 显示全部楼层
    Ne-21 发表于 2022-7-18 17:02
    xpath('normalize-space(.//div[@class="bookinfo"]/p/text())')

    试试这样可不可以,

    ne21我的神!
    混的人。
    ------------------------------------------
    進撃!永遠の帝国の破壊虎---李恒道

    入驻了爱发电https://afdian.net/a/lihengdao666
    个人宣言:この世界で私に胜てる人とコードはまだ生まれていません。死ぬのが怖くなければ来てください。
    回复

    使用道具 举报

  • TA的每日心情
    开心
    昨天 20:36
  • 签到天数: 880 天

    [LV.10]以坛为家III

    30

    主题

    732

    回帖

    7357

    积分

    荣誉开发者

    精通各种语言的HelloWord!

    积分
    7357

    荣誉开发者油中2周年生态建设者油中3周年挑战者 lv2

    发表于 2022-7-18 18:38:14 | 显示全部楼层

    道道永远是我男神!!!!!
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 08:54
  • 签到天数: 812 天

    [LV.10]以坛为家III

    31

    主题

    552

    回帖

    1556

    积分

    荣誉开发者

    积分
    1556

    荣誉开发者新人进步奖油中2周年生态建设者新人报道挑战者 lv2油中3周年喜迎中秋

    发表于 2022-7-18 18:55:32 | 显示全部楼层

    QQ截图20220718185237.png

    闲着没事,用油猴的方法写了个爬虫,估计参考意义不是很大

    思路2个,
    一个是获取js文本的时候替换所有的html空格
    另一个是对python的数组进行遍历替换所有的python空格

    回复

    使用道具 举报

  • TA的每日心情

    2024-5-19 19:56
  • 签到天数: 361 天

    [LV.8]以坛为家I

    11

    主题

    59

    回帖

    214

    积分

    高级工程师

    积分
    214

    油中2周年油中3周年

    发表于 2022-7-18 21:03:38 | 显示全部楼层
    steven026 发表于 2022-7-18 18:55
    [md]![QQ截图20220718185237.png](data/attachment/forum/202207/18/185319c0zee2u4yo09ttpc.png)

    闲着没 ...

    卧槽卧槽长姿势了卧槽 油猴竟然可以写爬虫 属实是我坐井观天了谢谢了老哥!我受到了启发 栓q!!
    回复

    使用道具 举报

    发表回复

    本版积分规则

    快速回复 返回顶部 返回列表