[发明专利]一种矫正OCR文字识别错误的方法及终端设备在审
申请号: | 202010292411.8 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111523532A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 祁健升 | 申请(专利权)人: | 广东小天才科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06F40/216;G06F40/284;G06F40/58 |
代理公司: | 广州德科知识产权代理有限公司 44381 | 代理人: | 万振雄;杨中强 |
地址: | 528850 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 矫正 ocr 文字 识别 错误 方法 终端设备 | ||
本发明实施例公开了一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质,用于基于第一英文单词识别结果,先利用OCR加权编辑距离算法进行相似单词的筛选,然后通过语句通顺度模型输出矫正后的英文单词,从而提升OCR准确率,为用户在使用指尖查单词中提供更精准的单词识别结果。本发明实施例方法包括:对图片进行英文OCR处理,得到第一英文单词识别结果;对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,并得到与所述错误单词对应的候选正确单词;将所述候选正确单词代替所述错误单词,输入到语句通顺度模型进行判断,确定目标正确单词;将所述目标正确单词代替所述错误单词,输出第二英文单词识别结果。
技术领域
本发明涉及教育技术领域,尤其涉及一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质。
背景技术
在现有技术中,通过OCR(Optical Character Recognition,光学字符识别)技术,将图片、照片上的文字内容,直接转换为可编辑文本的软件。软件可以把图片转换成可以编辑的文字。但是,在现有的识别技术中,英语OCR识别出图片中的英文单词并不通过任何检测判断是否OCR正确逻辑将结果呈现给用户,所以,存在OCR准确率低等缺点。
发明内容
本发明实施例提供了一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质,用于基于第一英文单词识别结果,先利用OCR加权编辑距离算法进行相似单词的筛选,然后通过语句通顺度模型输出矫正后的英文单词,从而提升OCR准确率,为用户在使用指尖查单词中提供更精准的单词识别结果。
有鉴于此,本发明第一方面提供了一种矫正OCR文字识别错误的方法,可以包括:
对图片进行英文OCR处理,得到第一英文单词识别结果;
对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,并得到与所述错误单词对应的候选正确单词;
将所述候选正确单词代替所述错误单词,输入到语句通顺度模型进行判断,确定目标正确单词;
将所述目标正确单词代替所述错误单词,输出第二英文单词识别结果。
可选的,在本发明的一些实施例中,所述OCR加权编辑距离模型包括拼写检查模型和拼写校正模型;
其中,所述拼写检查模型包括预先编辑的N-gram表,所述第一英文单词识别结果包括英文单词输入串;
所述对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,包括:
对所述英文单词输入串中的目标n元串,在所述预先编辑的N-gram表中查找,n为2或3;
若在所述预先编辑的N-gram表中出现的频率小于预设阈值,则确定所述目标n元串为错误单词;
其中,所述拼写校正模型包括编辑距离校正方法和OCR距离校正方法中的至少一种;
所述得到与所述错误单词对应的候选正确单词,包括:
使用所述编辑距离校正方法和OCR距离校正方法中的至少一种,计算得到与所述错误单词对应的候选正确单词。
可选的,在本发明的一些实施例中,所述对图片进行英文OCR处理,得到第一英文单词识别结果,包括:
当所述图片为非英文图片时,将所述非英文图片中的非英文翻译成英文;
获取包括所述英文的图片;
对包括所述英文的图片进行英文OCR处理,得到所述第一英文单词识别结果。
可选的,在本发明的一些实施例中,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010292411.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于波浪滑翔机的定深海洋声学信息获取系统
- 下一篇:压能复合型脱盐工艺