上一主题 下一主题
ScriptCat,新一代的脚本管理器脚本站,与全世界分享你的用户脚本油猴脚本开发指南教程目录
返回列表 发新帖

Pixiv系列小说自动爬虫

[复制链接]
  • TA的每日心情
    慵懒
    2 小时前
  • 签到天数: 633 天

    [LV.9]以坛为家II

    30

    主题

    535

    回帖

    1408

    积分

    荣誉开发者

    积分
    1408

    荣誉开发者新人进步奖油中2周年生态建设者新人报道挑战者 lv2油中3周年喜迎中秋

    发表于 2022-7-23 20:07:07 | 显示全部楼层 | 阅读模式
    安装此脚本 如何安装? 脚本问题反馈 给脚本评分 查看代码

    本帖最后由 steven026 于 2022-7-23 21:54 编辑

    【碎碎念】
    随便用来练手的脚本,因为不会python所以用JS写了爬虫,(得益于油猴脚本猫的GM_xmlhttpRequest没有跨域)
    最近书荒,想到了还有个宝库pixiv,于是便写了这个脚本
    力量并不可怕,可怕的是他的主人
    (说实话pixiv里面没几本小说能看的,各种克苏鲁级别的xp标签我都没欲望点开看)

    【简介】
    用来练手的爬虫脚本,放弃了引入第三方脚本,选择使用油猴脚本猫内置函数,因此依赖油猴脚本猫。
    不需要设置cookies,只需要用浏览器登陆Pixiv保证对目标小说有访问权限即可。
    下载内容存储在油猴脚本猫脚本中,可通过控制台命令将指定小说导出到本地。

    由于GM_xmlhttpRequest没有跨域限制,实际上可以将
    // @match https://www.pixiv.net/novel/series/*
    替换为
    // @include *
    从而在任意页面使用本脚本

    【爬虫命令】
    startMain(seriesID,"Charpters",isForce)
    启动爬虫
    --{number} seriesID: 必填,系列小说ID,获取位置为:https://www.pixiv.net/novel/series/系列小说ID (数字,不含?)
    --{string} Charpters: 可选,指定章节,默认为全部,具体指定规则见后文
    --{boolean} isForce: 可选,对于已存在章节是否强制下载,默认为否

    downloadList()
    获取已下载内容列表
    无参数,返回2个内容,分别为全部章节和全部小说,全部小说中文本可用于download()参数中的NovelName

    download(NovelName,Charpters)
    导出已下载内容
    --{string} NovelName: 必填,系列小说名,可通过downloadList()获取
    --{string} Charpters: 可选,指定章节,默认为全部,具体指定规则见后文

    Charpters 规则:
    规则1:单一数字/^\d+$/ 添加单一数字章节到下载队列
    规则2:数字范围/^\d+-\d+$/ 添加数字范围章节到下载队列
    规则3:^单一数字/^^\d+$/ 从下载队列中删除单一数字章节

    多个规则用,分隔
    例:"1,3-10,^5,15" 代表下载第1、3、4、6、7、8、9、10、15章
    例:"^5,3-10,1,15" 代表下载第1、3、4、5、6、7、8、9、10、15章

  • TA的每日心情
    开心
    2023-2-28 23:59
  • 签到天数: 191 天

    [LV.7]常住居民III

    637

    主题

    5194

    回帖

    6076

    积分

    管理员

    非物质文化遗产社会摇传承人

    积分
    6076

    荣誉开发者管理员油中2周年生态建设者喜迎中秋

    发表于 2022-7-23 20:41:24 | 显示全部楼层
    除了特别明显的网站(此处大量网址应mhsj毒打已删除)一眼真
    这种表面看着没问题的
    哥哥就不用钩的~
    混的人。
    ------------------------------------------
    進撃!永遠の帝国の破壊虎---李恒道

    入驻了爱发电https://afdian.net/a/lihengdao666
    个人宣言:この世界で私に胜てる人とコードはまだ生まれていません。死ぬのが怖くなければ来てください。
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2 小时前
  • 签到天数: 633 天

    [LV.9]以坛为家II

    30

    主题

    535

    回帖

    1408

    积分

    荣誉开发者

    积分
    1408

    荣誉开发者新人进步奖油中2周年生态建设者新人报道挑战者 lv2油中3周年喜迎中秋

    发表于 2022-7-23 21:00:46 | 显示全部楼层
    李恒道 发表于 2022-7-23 20:41
    除了特别明显的网站(此处大量网址应mhsj毒打已删除)一眼真
    这种表面看着没问题的
    哥哥就不用钩的~ ...

    似乎没找到能取消勾选的办法(greasyfork上面有取消选项)
    哥哥能帮我改吗?
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2024-3-13 10:14
  • 签到天数: 211 天

    [LV.7]常住居民III

    293

    主题

    3903

    回帖

    3822

    积分

    管理员

    积分
    3822

    管理员荣誉开发者油中2周年生态建设者喜迎中秋油中3周年挑战者 lv2

    发表于 2022-7-23 21:14:03 | 显示全部楼层

    image.png

    更新脚本的时候有这个设置

    上不慕古,下不肖俗。为疏为懒,不敢为狂。为拙为愚,不敢为恶。/ 微信公众号:一之哥哥
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2 小时前
  • 签到天数: 633 天

    [LV.9]以坛为家II

    30

    主题

    535

    回帖

    1408

    积分

    荣誉开发者

    积分
    1408

    荣誉开发者新人进步奖油中2周年生态建设者新人报道挑战者 lv2油中3周年喜迎中秋

    发表于 2022-7-23 21:24:41 | 显示全部楼层
    王一之 发表于 2022-7-23 21:14
    [md]!(data/attachment/forum/202207/23/211351rmpz2smtir2ts2tt.png)

    更新脚本的时候有这个设置

    谢谢哥哥找到了 刚才可能网络卡了没加载出来
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2024-3-13 10:14
  • 签到天数: 211 天

    [LV.7]常住居民III

    293

    主题

    3903

    回帖

    3822

    积分

    管理员

    积分
    3822

    管理员荣誉开发者油中2周年生态建设者喜迎中秋油中3周年挑战者 lv2

    发表于 2022-7-23 21:26:39 | 显示全部楼层
    steven026 发表于 2022-7-23 21:24
    谢谢哥哥找到了 刚才可能网络卡了没加载出来

    网络 那应该整个页面都加载不出来才是
    上不慕古,下不肖俗。为疏为懒,不敢为狂。为拙为愚,不敢为恶。/ 微信公众号:一之哥哥
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2 小时前
  • 签到天数: 633 天

    [LV.9]以坛为家II

    30

    主题

    535

    回帖

    1408

    积分

    荣誉开发者

    积分
    1408

    荣誉开发者新人进步奖油中2周年生态建设者新人报道挑战者 lv2油中3周年喜迎中秋

    发表于 2022-7-23 21:54:07 | 显示全部楼层
    王一之 发表于 2022-7-23 21:26
    网络 那应该整个页面都加载不出来才是

    不知道……刚才有段时间论坛登不上去timeout,然后脚本页面我每个标签都点开看了了没找到取消勾选的地方
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2024-3-13 10:14
  • 签到天数: 211 天

    [LV.7]常住居民III

    293

    主题

    3903

    回帖

    3822

    积分

    管理员

    积分
    3822

    管理员荣誉开发者油中2周年生态建设者喜迎中秋油中3周年挑战者 lv2

    发表于 2022-7-23 21:55:51 | 显示全部楼层
    steven026 发表于 2022-7-23 21:54
    不知道……刚才有段时间论坛登不上去timeout,然后脚本页面我每个标签都点开看了了没找到取消勾选的地方 ...

    哦哦。。。前面是挂了一会儿

    可能快得升配置了
    上不慕古,下不肖俗。为疏为懒,不敢为狂。为拙为愚,不敢为恶。/ 微信公众号:一之哥哥
    回复

    使用道具 举报

    该用户从未签到

    1

    主题

    27

    回帖

    29

    积分

    助理工程师

    积分
    29
    发表于 2022-7-25 20:24:38 | 显示全部楼层
    不会日语,看不懂
    回复

    使用道具 举报

    发表回复

    本版积分规则

    快速回复 返回顶部 返回列表