[发明专利]一种矫正OCR文字识别错误的方法及终端设备在审
申请号: | 202010292411.8 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111523532A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 祁健升 | 申请(专利权)人: | 广东小天才科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06F40/216;G06F40/284;G06F40/58 |
代理公司: | 广州德科知识产权代理有限公司 44381 | 代理人: | 万振雄;杨中强 |
地址: | 528850 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 矫正 ocr 文字 识别 错误 方法 终端设备 | ||
1.一种矫正OCR文字识别错误的方法,其特征在于,包括:
对图片进行英文OCR处理,得到第一英文单词识别结果;
对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,并得到与所述错误单词对应的候选正确单词;
将所述候选正确单词代替所述错误单词,输入到语句通顺度模型进行判断,确定目标正确单词;
将所述目标正确单词代替所述错误单词,输出第二英文单词识别结果。
2.根据权利要求1所述的方法,其特征在于,所述OCR加权编辑距离模型包括拼写检查模型和拼写校正模型;
其中,所述拼写检查模型包括预先编辑的N-gram表,所述第一英文单词识别结果包括英文单词输入串;
所述对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,包括:
对所述英文单词输入串中的目标n元串,在所述预先编辑的N-gram表中查找,n为2或3;
若在所述预先编辑的N-gram表中出现的频率小于预设阈值,则确定所述目标n元串为错误单词;
其中,所述拼写校正模型包括编辑距离校正方法和OCR距离校正方法中的至少一种;
所述得到与所述错误单词对应的候选正确单词,包括:
使用所述编辑距离校正方法和OCR距离校正方法中的至少一种,计算得到与所述错误单词对应的候选正确单词。
3.根据权利要求1或2所述的方法,其特征在于,所述对图片进行英文OCR处理,得到第一英文单词识别结果,包括:
当所述图片为非英文图片时,将所述非英文图片中的非英文翻译成英文;
获取包括所述英文的图片;
对包括所述英文的图片进行英文OCR处理,得到所述第一英文单词识别结果。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
对所述第二英文单词识别结果与标准单词识别结果进行匹配;
确定所述第二英文单词识别结果与所述标准单词识别结果相同单词的比例;
若所述比例为百分百,则确定所述第二英文单词识别结果完全准确,生成并输出第一提示信息,所述第一提示信息包括所述第二英文单词识别结果完全准确的指示信息;
若所述比例大于第一阈值小于百分百,则确定所述第二英文单词识别结果为高准确率,生成并输出第二提示信息,所述第二提示信息包括所述第二英文单词识别结果为高准确率但不完全准确的指示信息;
若所述比例大于第二阈值小于所述第一阈值,则确定所述第二英文单词识别结果为中准确率,生成并输出第三提示信息,所述第三提示信息包括所述第二英文单词识别结果为中准确率,以及是否需要重新进行OCR文字识别的指示信息;
若所述比例小于所述第二阈值,则确定所述第二英文单词识别结果为低准确率,生成并输出第四提示信息,所述第四提示信息包括所述第二英文单词识别结果为高准确率,以及需要重新进行OCR文字识别的指示信息。
5.根据权利要求1或2所述的方法,其特征在于,所述输出第二英文单词识别结果,包括:
通过语音播放的方式,输出所述第二英文单词识别结果;或者,
通过屏幕显示的方式,输出所述第二英文单词识别结果;或者,
通过投影显示的方式,输出所述第二英文单词识别结果;或者,
通过投影显示和语音播放的方式,输出所述第二英文单词识别结果;或者,
通过屏幕显示和语音播放的方式,输出所述第二英文单词识别结果。
6.根据权利要求5所述的方法,其特征在于,所述通过语音播放的方式,输出所述第二英文单词识别结果,包括:
监听所述用户在点读过程中的环境音;
判断所述环境音是否大于预置阈值;
若大于,则检测终端设备是否连接无线耳机;
若连接,则通过所述无线耳机输出所述第二英文单词识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010292411.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于波浪滑翔机的定深海洋声学信息获取系统
- 下一篇:压能复合型脱盐工艺