自定义格式化文献-油猴中文网 - Powered by Discuz! Archiver

tfsn20 发表于 2023-12-6 10:51:21

自定义格式化文献

本帖最后由 tfsn20 于 2024-2-11 21:10 编辑

# 起因
起因是我想使用nltk库对文献进行词性分析，但发现解析文献时对于符号比较混乱，html相比PDF好一点，但会有一些上下角标和latex的符号被识别为另外一段的开始，比如这样：
***原图片***
![图片.png](data/attachment/forum/202312/06/100938c2d01xb0be0h0e0e.png)
***WORD图片***
![图片.png](data/attachment/forum/202312/06/100956bio0hyhgr15rzizm.png)
这些符号通常是非ascii字符，导致使用docx-py库解析时出现这样的情况。另外html排版中文字连接符有时居然也会用上表的负数符号表示（混淆？？？）
# 解决
常见文献格式有PDF，但在解析文本内容时会出现乱码的情况（特别是一些符号和公式），因此本脚本直接在文献原站上解析html，更容易解析符号和公式。
文献网站格式化导出txt, html, doc, docx，docx导出借助docx.js库实现；
打开网站后，页面上方出现闪烁按钮，按下即可导出txt, html, doc, docx文件到浏览器下载目录；
移除图片，引注，引用，公式的一部分（如分号和根号）
目前支持sciencedirect网站，移除了图片，保留图注；移除了图片下载文字和引用序号，导出文献的标题|摘要|关键词|主题内容使用换行符隔开, 对上标下标以及公式没有进行上下标解析，仅仅对上标做了替换，因此导出的docx中是无格式的；有需要的小伙伴可以借助[https://cdn.jsdelivr.net/npm/[email protected]/build/index.umd.min.js](https://docx.js.org/)库实现；
支持rsc网站（移除作者相关和于Conflicts of interest后与论文主题无关的东西）。
支持springer站。
后面可能会支持上下标解析和公式解析，也会支持其他网站。
***公式对比***
***原图片***
![图片.png](data/attachment/forum/202312/06/095639juldce602te025o0.png)
***WORD图片***
![图片.png](data/attachment/forum/202312/06/095706gu44lrvseh5trvu9.png)
# 更新说明
由于我是对文献摘要和主题内容进行词性分析，所以后续脚本更新可能不会对公式，角标等符号进行解析支持，看看再说吧。
0.2.0增加了自定义配置项，默认不保留图注（可通过配置更改），替换\u223c ∼为~，替换img alt 'radical dot'为\u2022 •；由于nltk库的sent_tokenize会把标题和小标题中的句点符号当作句子结束，因此还增加了是否将其转换为一点前导符的选项。

王一之 发表于 2023-12-6 13:38:59

ggnb，好专业

641812 发表于 2023-12-8 20:56:23

ggnb，有点专业

李恒道 发表于 2023-12-8 21:06:11

哥哥牛逼太专业了

页: [1]

油猴中文网's Archiver

自定义格式化文献