言小溪enncy 发表于 2022-4-27 10:17:32

王一之 发表于 2022-4-27 10:15
这个ocr效果好像不是很好,查题命中率大大降低

看上面的代码例子吧,错了一个字,其他都识别出来了。

言小溪enncy 发表于 2022-4-27 10:18:08

王一之 发表于 2022-4-27 10:15
这个ocr效果好像不是很好,查题命中率大大降低

只能说这个是下下策,有其他方法自然更好 🤣

Ne-21 发表于 2022-4-27 10:20:15

接入百度orc响应速度和准确率会不会高点?或者雇佣女大学生来做字体映射{:4_110:}

Ne-21 发表于 2022-4-27 10:22:58

目前来看,orc算是最快解决办法了,期待大佬给出更牛逼的方案

王一之 发表于 2022-4-27 10:31:36

还没遇到过,好像有的账号还没有加密

复制粘贴的话,会不会复制出来的也是乱码啊?

言小溪enncy 发表于 2022-4-27 10:34:42

王一之 发表于 2022-4-27 10:31
还没遇到过,好像有的账号还没有加密

复制粘贴的话,会不会复制出来的也是乱码啊? ...

估计是某些操作导致cx识别出来刷课行为。我也不太懂 🤣

你用 py 或者 node 请求一下就知道了,源文件的字体是已经加密了的,加了 @font-facee 字体样式才能显示成正常字体,要不然看到的也是乱码。

王一之 发表于 2022-4-27 10:53:14

> enncy 发表于 2022-4-27 10:34
> 估计是某些操作导致cx识别出来刷课行为。我也不太懂 🤣
> 你用 py 或者 node 请求一下就知道了,源文件的 ...

解析文件看了一下,可以只OCR他转化了的字,然后替换,不用处理全部的,应该能提高一些准确率

!(data/attachment/forum/202204/27/105229un29i50hg900h2oo.jpg)

言小溪enncy 发表于 2022-4-27 11:08:13

王一之 发表于 2022-4-27 10:53
> enncy 发表于 2022-4-27 10:34
> 估计是某些操作导致cx识别出来刷课行为。我也不太懂 🤣
> 你用 py...

没必要,刚刚试了一下,加字体间隔和字体大小后基本正确率100% 😍

smdssz 发表于 2022-4-27 12:24:06

兄弟,能讲一下具体怎么操作吗,不太会

言小溪enncy 发表于 2022-4-27 12:36:46

smdssz 发表于 2022-4-27 12:24
兄弟,能讲一下具体怎么操作吗,不太会

看我写的例子啊,就是引入那2个依赖,然后代码直接复制粘贴就行了,或者等我开发完成后,开放一个API给你们调用
页: 1 [2] 3 4 5 6 7
查看完整版本: 关于超星最近题目乱码繁体字的解决方案