Pixiv系列小说自动爬虫

steven026 · 发表于 2022-7-23 20:07:07

本帖最后由 steven026 于 2022-7-23 21:54 编辑

【碎碎念】
随便用来练手的脚本，因为不会python所以用JS写了爬虫，（得益于油猴脚本猫的GM_xmlhttpRequest没有跨域）
最近书荒，想到了还有个宝库pixiv，于是便写了这个脚本
~~力量并不可怕，可怕的是他的主人~~
（说实话pixiv里面没几本小说能看的，各种克苏鲁级别的xp标签我都没欲望点开看）

【简介】
用来练手的爬虫脚本，放弃了引入第三方脚本，选择使用油猴脚本猫内置函数，因此依赖油猴脚本猫。
不需要设置cookies，只需要用浏览器登陆Pixiv保证对目标小说有访问权限即可。
下载内容存储在油猴脚本猫脚本中，可通过控制台命令将指定小说导出到本地。

由于GM_xmlhttpRequest没有跨域限制，实际上可以将
// @match https://www.pixiv.net/novel/series/*
替换为
// @include *
从而在任意页面使用本脚本

【爬虫命令】
startMain(seriesID,"Charpters",isForce)
启动爬虫
--{number} seriesID: 必填，系列小说ID，获取位置为：https://www.pixiv.net/novel/series/系列小说ID （数字，不含?）
--{string} Charpters: 可选，指定章节，默认为全部，具体指定规则见后文
--{boolean} isForce: 可选，对于已存在章节是否强制下载，默认为否

downloadList()
获取已下载内容列表
无参数，返回2个内容，分别为全部章节和全部小说，全部小说中文本可用于download()参数中的NovelName

download(NovelName,Charpters)
导出已下载内容
--{string} NovelName: 必填，系列小说名，可通过downloadList()获取
--{string} Charpters: 可选，指定章节，默认为全部，具体指定规则见后文

Charpters 规则：
规则1：单一数字/^\d+$/ 添加单一数字章节到下载队列
规则2：数字范围/^\d+-\d+$/ 添加数字范围章节到下载队列
规则3：^单一数字/^^\d+$/ 从下载队列中删除单一数字章节

多个规则用,分隔
例："1,3-10,^5,15" 代表下载第1、3、4、6、7、8、9、10、15章
例："^5,3-10,1,15" 代表下载第1、3、4、5、6、7、8、9、10、15章

李恒道 · 发表于 2022-7-23 20:41:24

除了特别明显的网站(此处大量网址应mhsj毒打已删除)一眼真
这种表面看着没问题的
哥哥就不用钩的~

steven026 · 发表于 2022-7-23 21:00:46

李恒道发表于 2022-7-23 20:41
除了特别明显的网站(此处大量网址应mhsj毒打已删除)一眼真
这种表面看着没问题的
哥哥就不用钩的~ ...

似乎没找到能取消勾选的办法（greasyfork上面有取消选项）
哥哥能帮我改吗？

王一之 · 发表于 2022-7-23 21:14:03

更新脚本的时候有这个设置

steven026 · 发表于 2022-7-23 21:24:41

王一之发表于 2022-7-23 21:14
[md]!(data/attachment/forum/202207/23/211351rmpz2smtir2ts2tt.png)

更新脚本的时候有这个设置

谢谢哥哥找到了刚才可能网络卡了没加载出来

王一之 · 发表于 2022-7-23 21:26:39

steven026 发表于 2022-7-23 21:24
谢谢哥哥找到了刚才可能网络卡了没加载出来

网络那应该整个页面都加载不出来才是

steven026 · 发表于 2022-7-23 21:54:07

王一之发表于 2022-7-23 21:26
网络那应该整个页面都加载不出来才是

不知道……刚才有段时间论坛登不上去timeout，然后脚本页面我每个标签都点开看了了没找到取消勾选的地方

王一之 · 发表于 2022-7-23 21:55:51

steven026 发表于 2022-7-23 21:54
不知道……刚才有段时间论坛登不上去timeout，然后脚本页面我每个标签都点开看了了没找到取消勾选的地方 ...

哦哦。。。前面是挂了一会儿

可能快得升配置了

4422003322 · 发表于 2022-7-25 20:24:38

不会日语，看不懂

Pixiv系列小说自动爬虫

发表回复

荣誉开发者

新人进步奖

油中2周年

生态建设者

新人报道

挑战者 lv2

油中3周年

喜迎中秋

管理员