言小溪enncy
发表于 2022-4-27 10:17:32
王一之 发表于 2022-4-27 10:15
这个ocr效果好像不是很好,查题命中率大大降低
看上面的代码例子吧,错了一个字,其他都识别出来了。
言小溪enncy
发表于 2022-4-27 10:18:08
王一之 发表于 2022-4-27 10:15
这个ocr效果好像不是很好,查题命中率大大降低
只能说这个是下下策,有其他方法自然更好 🤣
Ne-21
发表于 2022-4-27 10:20:15
接入百度orc响应速度和准确率会不会高点?或者雇佣女大学生来做字体映射{:4_110:}
Ne-21
发表于 2022-4-27 10:22:58
目前来看,orc算是最快解决办法了,期待大佬给出更牛逼的方案
王一之
发表于 2022-4-27 10:31:36
还没遇到过,好像有的账号还没有加密
复制粘贴的话,会不会复制出来的也是乱码啊?
言小溪enncy
发表于 2022-4-27 10:34:42
王一之 发表于 2022-4-27 10:31
还没遇到过,好像有的账号还没有加密
复制粘贴的话,会不会复制出来的也是乱码啊? ...
估计是某些操作导致cx识别出来刷课行为。我也不太懂 🤣
你用 py 或者 node 请求一下就知道了,源文件的字体是已经加密了的,加了 @font-facee 字体样式才能显示成正常字体,要不然看到的也是乱码。
王一之
发表于 2022-4-27 10:53:14
> enncy 发表于 2022-4-27 10:34
> 估计是某些操作导致cx识别出来刷课行为。我也不太懂 🤣
> 你用 py 或者 node 请求一下就知道了,源文件的 ...
解析文件看了一下,可以只OCR他转化了的字,然后替换,不用处理全部的,应该能提高一些准确率
!(data/attachment/forum/202204/27/105229un29i50hg900h2oo.jpg)
言小溪enncy
发表于 2022-4-27 11:08:13
王一之 发表于 2022-4-27 10:53
> enncy 发表于 2022-4-27 10:34
> 估计是某些操作导致cx识别出来刷课行为。我也不太懂 🤣
> 你用 py...
没必要,刚刚试了一下,加字体间隔和字体大小后基本正确率100% 😍
smdssz
发表于 2022-4-27 12:24:06
兄弟,能讲一下具体怎么操作吗,不太会
言小溪enncy
发表于 2022-4-27 12:36:46
smdssz 发表于 2022-4-27 12:24
兄弟,能讲一下具体怎么操作吗,不太会
看我写的例子啊,就是引入那2个依赖,然后代码直接复制粘贴就行了,或者等我开发完成后,开放一个API给你们调用