脚本猫后台脚本能读取dom吗?
本帖最后由 cvpv 于 2024-2-1 08:58 编辑想实现一个定时爬虫的功能,每天定时读取若干个网页的内容,将内容上传到某个http地址
请问有啥实现思路? cvpv 发表于 2024-2-1 08:54
是啊,我需要读取类似vue的spa页面,普通油猴脚本能实现吗?
比如我储存有100个搜索词,每天需要百度搜索 ...
感觉类似这种需求CDP更合适
用GM_xhr实现:https://bbs.tampermonkey.net.cn/thread-973-1-1.html dom读取不了的,只能通过gm_xhr获取html内容考虑parse之后读取,但是进一步渲染的SPA页面等等就没办法了 李恒道 发表于 2024-1-31 22:14
dom读取不了的,只能通过gm_xhr获取html内容考虑parse之后读取,但是进一步渲染的SPA页面等等就没办法了 ...
是啊,我需要读取类似vue的spa页面,普通油猴脚本能实现吗?
比如我储存有100个搜索词,每天需要百度搜索页面搜索这100个词并抓取这个100词的猜你喜欢和下拉长尾词。
是否可以后台脚本配合普通脚本一起执行,
每天定时后台脚本执行window.open100个页面,每打开一个页面然后window.close关闭
同时寄存于页面的普通脚本执行页面抓取,把页面的内容发给服务器 cxxjackie 发表于 2024-1-31 22:11
用GM_xhr实现:https://bbs.tampermonkey.net.cn/thread-973-1-1.html
是的,这很好。
但是我读取的内容有些需要js渲染。
而且通过xhr读取document的话,会不会被网站判断为爬虫,毕竟只是拉了document没有读取其他资源。
cvpv 发表于 2024-2-1 08:54
是啊,我需要读取类似vue的spa页面,普通油猴脚本能实现吗?
比如我储存有100个搜索词,每天需要百度搜索 ...
GM_xhr去调用API获取就好了 李恒道 发表于 2024-2-1 16:27
感觉类似这种需求CDP更合适
什么是cdp?是Chrome DevTools Protocol 吗? cvpv 发表于 2024-2-28 10:04
什么是cdp?是Chrome DevTools Protocol 吗?
是的
页:
[1]