上一主题 下一主题
ScriptCat,新一代的脚本管理器脚本站,与全世界分享你的用户脚本油猴脚本开发指南教程目录
返回列表 发新帖

脚本猫后台脚本能读取dom吗?

[复制链接]
  • TA的每日心情
    慵懒
    2024-3-8 11:53
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    4

    主题

    9

    回帖

    18

    积分

    助理工程师

    积分
    18
    发表于 2024-1-31 20:46:29 | 显示全部楼层 | 阅读模式
    悬赏20油猫币已解决

    本帖最后由 cvpv 于 2024-2-1 08:58 编辑

    想实现一个定时爬虫的功能,每天定时读取若干个网页的内容,将内容上传到某个http地址
    请问有啥实现思路?

    最佳答案

    查看完整内容

    感觉类似这种需求CDP更合适
  • TA的每日心情
    慵懒
    2024-10-28 07:07
  • 签到天数: 193 天

    [LV.7]常住居民III

    712

    主题

    5966

    回帖

    6764

    积分

    管理员

    非物质文化遗产社会摇传承人

    积分
    6764

    荣誉开发者喜迎中秋油中2周年生态建设者

    发表于 2024-1-31 20:46:30 | 显示全部楼层
    cvpv 发表于 2024-2-1 08:54
    是啊,我需要读取类似vue的spa页面,普通油猴脚本能实现吗?
    比如我储存有100个搜索词,每天需要百度搜索 ...

    感觉类似这种需求CDP更合适
    混的人。
    ------------------------------------------
    進撃!永遠の帝国の破壊虎---李恒道

    入驻了爱发电https://afdian.net/a/lihengdao666
    个人宣言:この世界で私に胜てる人とコードはまだ生まれていません。死ぬのが怖くなければ来てください。
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2022-3-8 11:41
  • 签到天数: 2 天

    [LV.1]初来乍到

    22

    主题

    881

    回帖

    1379

    积分

    荣誉开发者

    积分
    1379

    荣誉开发者卓越贡献油中2周年生态建设者油中3周年挑战者 lv2

    发表于 2024-1-31 22:11:47 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2024-10-28 07:07
  • 签到天数: 193 天

    [LV.7]常住居民III

    712

    主题

    5966

    回帖

    6764

    积分

    管理员

    非物质文化遗产社会摇传承人

    积分
    6764

    荣誉开发者喜迎中秋油中2周年生态建设者

    发表于 2024-1-31 22:14:46 | 显示全部楼层
    dom读取不了的,只能通过gm_xhr获取html内容考虑parse之后读取,但是进一步渲染的SPA页面等等就没办法了
    混的人。
    ------------------------------------------
    進撃!永遠の帝国の破壊虎---李恒道

    入驻了爱发电https://afdian.net/a/lihengdao666
    个人宣言:この世界で私に胜てる人とコードはまだ生まれていません。死ぬのが怖くなければ来てください。
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2024-3-8 11:53
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    4

    主题

    9

    回帖

    18

    积分

    助理工程师

    积分
    18
    发表于 2024-2-1 08:54:29 | 显示全部楼层
    李恒道 发表于 2024-1-31 22:14
    dom读取不了的,只能通过gm_xhr获取html内容考虑parse之后读取,但是进一步渲染的SPA页面等等就没办法了 ...

    是啊,我需要读取类似vue的spa页面,普通油猴脚本能实现吗?
    比如我储存有100个搜索词,每天需要百度搜索页面搜索这100个词并抓取这个100词的猜你喜欢和下拉长尾词。

    是否可以后台脚本配合普通脚本一起执行,
    每天定时后台脚本执行window.open100个页面,每打开一个页面然后window.close关闭

    同时寄存于页面的普通脚本执行页面抓取,把页面的内容发给服务器
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2024-3-8 11:53
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    4

    主题

    9

    回帖

    18

    积分

    助理工程师

    积分
    18
    发表于 2024-2-1 08:56:48 | 显示全部楼层
    cxxjackie 发表于 2024-1-31 22:11
    用GM_xhr实现:https://bbs.tampermonkey.net.cn/thread-973-1-1.html

    是的,这很好。

    但是我读取的内容有些需要js渲染。

    而且通过xhr读取document的话,会不会被网站判断为爬虫,毕竟只是拉了document没有读取其他资源。
    回复

    使用道具 举报

  • TA的每日心情
    开心
    3 天前
  • 签到天数: 213 天

    [LV.7]常住居民III

    305

    主题

    4197

    回帖

    4061

    积分

    管理员

    积分
    4061

    管理员荣誉开发者油中2周年生态建设者喜迎中秋油中3周年挑战者 lv2

    发表于 2024-2-1 09:56:06 | 显示全部楼层
    cvpv 发表于 2024-2-1 08:54
    是啊,我需要读取类似vue的spa页面,普通油猴脚本能实现吗?
    比如我储存有100个搜索词,每天需要百度搜索 ...

    GM_xhr去调用API获取就好了
    上不慕古,下不肖俗。为疏为懒,不敢为狂。为拙为愚,不敢为恶。
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2024-3-8 11:53
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    4

    主题

    9

    回帖

    18

    积分

    助理工程师

    积分
    18
    发表于 2024-2-28 10:04:09 | 显示全部楼层
    李恒道 发表于 2024-2-1 16:27
    感觉类似这种需求CDP更合适

    什么是cdp?是Chrome DevTools Protocol 吗?
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2024-10-28 07:07
  • 签到天数: 193 天

    [LV.7]常住居民III

    712

    主题

    5966

    回帖

    6764

    积分

    管理员

    非物质文化遗产社会摇传承人

    积分
    6764

    荣誉开发者喜迎中秋油中2周年生态建设者

    发表于 2024-2-28 17:58:18 | 显示全部楼层
    cvpv 发表于 2024-2-28 10:04
    什么是cdp?是Chrome DevTools Protocol 吗?

    是的
    混的人。
    ------------------------------------------
    進撃!永遠の帝国の破壊虎---李恒道

    入驻了爱发电https://afdian.net/a/lihengdao666
    个人宣言:この世界で私に胜てる人とコードはまだ生まれていません。死ぬのが怖くなければ来てください。
    回复

    使用道具 举报

    发表回复

    本版积分规则

    快速回复 返回顶部 返回列表