上一主题 下一主题
ScriptCat,新一代的脚本管理器脚本站,与全世界分享你的用户脚本油猴脚本开发指南教程目录
返回列表 发新帖
楼主: tfsn20 - 

自定义格式化文献

[复制链接]
  • TA的每日心情
    慵懒
    11 小时前
  • 签到天数: 765 天

    [LV.10]以坛为家III

    46

    主题

    197

    回帖

    849

    积分

    荣誉开发者

    积分
    849

    荣誉开发者油中2周年生态建设者

    发表于 2023-12-6 10:51:21 | 显示全部楼层 | 阅读模式
    安装此脚本 如何安装? 脚本问题反馈 给脚本评分 查看代码

    本帖最后由 tfsn20 于 2024-2-11 21:10 编辑

    起因

    起因是我想使用nltk库对文献进行词性分析,但发现解析文献时对于符号比较混乱,html相比PDF好一点,但会有一些上下角标和latex的符号被识别为另外一段的开始,比如这样:
    原图片
    图片.png
    WORD图片
    图片.png
    这些符号通常是非ascii字符,导致使用docx-py库解析时出现这样的情况。另外html排版中文字连接符有时居然也会用上表的负数符号表示(混淆???)

    解决

    常见文献格式有PDF,但在解析文本内容时会出现乱码的情况(特别是一些符号和公式),因此本脚本直接在文献原站上解析html,更容易解析符号和公式。
    文献网站格式化导出txt, html, doc, docx,docx导出借助docx.js库实现;
    打开网站后,页面上方出现闪烁按钮,按下即可导出txt, html, doc, docx文件到浏览器下载目录;
    移除图片,引注,引用,公式的一部分(如分号和根号)
    目前支持sciencedirect网站,移除了图片,保留图注;移除了图片下载文字和引用序号,导出文献的标题|摘要|关键词|主题内容使用换行符隔开, 对上标下标以及公式没有进行上下标解析,仅仅对上标做了替换,因此导出的docx中是无格式的;有需要的小伙伴可以借助https://cdn.jsdelivr.net/npm/docx@8.2.4/build/index.umd.min.js库实现;
    支持rsc网站(移除作者相关和于Conflicts of interest后与论文主题无关的东西)。
    支持springer站。
    后面可能会支持上下标解析和公式解析,也会支持其他网站。
    公式对比
    原图片
    图片.png
    WORD图片
    图片.png

    更新说明

    由于我是对文献摘要和主题内容进行词性分析,所以后续脚本更新可能不会对公式,角标等符号进行解析支持,看看再说吧。
    0.2.0增加了自定义配置项,默认不保留图注(可通过配置更改),替换\u223c ∼为~,替换img alt 'radical dot'为\u2022 •;由于nltk库的sent_tokenize会把标题和小标题中的句点符号当作句子结束,因此还增加了是否将其转换为一点前导符的选项。

    已有1人评分好评 油猫币 理由
    王一之 + 1 + 8 赞一个!

    查看全部评分 总评分:好评 +1  油猫币 +8 

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 213 天

    [LV.7]常住居民III

    305

    主题

    4189

    回帖

    4056

    积分

    管理员

    积分
    4056

    管理员荣誉开发者油中2周年生态建设者喜迎中秋油中3周年挑战者 lv2

    发表于 2023-12-6 13:38:59 | 显示全部楼层
    ggnb,好专业
    上不慕古,下不肖俗。为疏为懒,不敢为狂。为拙为愚,不敢为恶。
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2024-2-7 13:23
  • 签到天数: 242 天

    [LV.8]以坛为家I

    4

    主题

    56

    回帖

    175

    积分

    中级工程师

    积分
    175

    油中2周年

    发表于 2023-12-8 20:56:23 | 显示全部楼层
    ggnb,有点专业
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2024-10-28 07:07
  • 签到天数: 193 天

    [LV.7]常住居民III

    712

    主题

    5959

    回帖

    6758

    积分

    管理员

    非物质文化遗产社会摇传承人

    积分
    6758

    荣誉开发者喜迎中秋油中2周年生态建设者

    发表于 2023-12-8 21:06:11 | 显示全部楼层
    哥哥牛逼 太专业了
    混的人。
    ------------------------------------------
    進撃!永遠の帝国の破壊虎---李恒道

    入驻了爱发电https://afdian.net/a/lihengdao666
    个人宣言:この世界で私に胜てる人とコードはまだ生まれていません。死ぬのが怖くなければ来てください。
    回复

    使用道具 举报

    发表回复

    本版积分规则

    快速回复 返回顶部 返回列表