关于超星最近题目乱码繁体字的解决方案-油猴中文网

言小溪enncy 发表于 2022-4-27 10:17:32

王一之发表于 2022-4-27 10:15
这个ocr效果好像不是很好，查题命中率大大降低

看上面的代码例子吧，错了一个字，其他都识别出来了。

言小溪enncy 发表于 2022-4-27 10:18:08

王一之发表于 2022-4-27 10:15
这个ocr效果好像不是很好，查题命中率大大降低

只能说这个是下下策，有其他方法自然更好 🤣

Ne-21 发表于 2022-4-27 10:20:15

接入百度orc响应速度和准确率会不会高点？或者雇佣女大学生来做字体映射{:4_110:}

Ne-21 发表于 2022-4-27 10:22:58

目前来看，orc算是最快解决办法了，期待大佬给出更牛逼的方案

王一之 发表于 2022-4-27 10:31:36

还没遇到过，好像有的账号还没有加密

复制粘贴的话，会不会复制出来的也是乱码啊？

言小溪enncy 发表于 2022-4-27 10:34:42

王一之发表于 2022-4-27 10:31
还没遇到过，好像有的账号还没有加密

复制粘贴的话，会不会复制出来的也是乱码啊？ ...

估计是某些操作导致cx识别出来刷课行为。我也不太懂 🤣

你用 py 或者 node 请求一下就知道了，源文件的字体是已经加密了的，加了 @font-facee 字体样式才能显示成正常字体，要不然看到的也是乱码。

王一之 发表于 2022-4-27 10:53:14

> enncy 发表于 2022-4-27 10:34
> 估计是某些操作导致cx识别出来刷课行为。我也不太懂 🤣
> 你用 py 或者 node 请求一下就知道了，源文件的 ...

解析文件看了一下，可以只OCR他转化了的字，然后替换，不用处理全部的，应该能提高一些准确率

!(data/attachment/forum/202204/27/105229un29i50hg900h2oo.jpg)

言小溪enncy 发表于 2022-4-27 11:08:13

王一之发表于 2022-4-27 10:53
> enncy 发表于 2022-4-27 10:34
> 估计是某些操作导致cx识别出来刷课行为。我也不太懂 🤣
> 你用 py...

没必要，刚刚试了一下，加字体间隔和字体大小后基本正确率100% 😍

smdssz 发表于 2022-4-27 12:24:06

兄弟，能讲一下具体怎么操作吗，不太会

言小溪enncy 发表于 2022-4-27 12:36:46

smdssz 发表于 2022-4-27 12:24
兄弟，能讲一下具体怎么操作吗，不太会

看我写的例子啊，就是引入那2个依赖，然后代码直接复制粘贴就行了，或者等我开发完成后，开放一个API给你们调用

页: 1 [2] 3 4 5 6 7

油猴中文网's Archiver