cvpv 发表于 2024-1-31 20:46:29

脚本猫后台脚本能读取dom吗?

本帖最后由 cvpv 于 2024-2-1 08:58 编辑

想实现一个定时爬虫的功能,每天定时读取若干个网页的内容,将内容上传到某个http地址
请问有啥实现思路?

李恒道 发表于 2024-1-31 20:46:30

cvpv 发表于 2024-2-1 08:54
是啊,我需要读取类似vue的spa页面,普通油猴脚本能实现吗?
比如我储存有100个搜索词,每天需要百度搜索 ...

感觉类似这种需求CDP更合适

cxxjackie 发表于 2024-1-31 22:11:47

用GM_xhr实现:https://bbs.tampermonkey.net.cn/thread-973-1-1.html

李恒道 发表于 2024-1-31 22:14:46

dom读取不了的,只能通过gm_xhr获取html内容考虑parse之后读取,但是进一步渲染的SPA页面等等就没办法了

cvpv 发表于 2024-2-1 08:54:29

李恒道 发表于 2024-1-31 22:14
dom读取不了的,只能通过gm_xhr获取html内容考虑parse之后读取,但是进一步渲染的SPA页面等等就没办法了 ...

是啊,我需要读取类似vue的spa页面,普通油猴脚本能实现吗?
比如我储存有100个搜索词,每天需要百度搜索页面搜索这100个词并抓取这个100词的猜你喜欢和下拉长尾词。

是否可以后台脚本配合普通脚本一起执行,
每天定时后台脚本执行window.open100个页面,每打开一个页面然后window.close关闭

同时寄存于页面的普通脚本执行页面抓取,把页面的内容发给服务器

cvpv 发表于 2024-2-1 08:56:48

cxxjackie 发表于 2024-1-31 22:11
用GM_xhr实现:https://bbs.tampermonkey.net.cn/thread-973-1-1.html

是的,这很好。

但是我读取的内容有些需要js渲染。

而且通过xhr读取document的话,会不会被网站判断为爬虫,毕竟只是拉了document没有读取其他资源。

王一之 发表于 2024-2-1 09:56:06

cvpv 发表于 2024-2-1 08:54
是啊,我需要读取类似vue的spa页面,普通油猴脚本能实现吗?
比如我储存有100个搜索词,每天需要百度搜索 ...

GM_xhr去调用API获取就好了

cvpv 发表于 2024-2-28 10:04:09

李恒道 发表于 2024-2-1 16:27
感觉类似这种需求CDP更合适

什么是cdp?是Chrome DevTools Protocol 吗?

李恒道 发表于 2024-2-28 17:58:18

cvpv 发表于 2024-2-28 10:04
什么是cdp?是Chrome DevTools Protocol 吗?

是的
页: [1]
查看完整版本: 脚本猫后台脚本能读取dom吗?