[发明专利]一种矫正OCR文字识别错误的方法及终端设备在审

专利信息
申请号: 202010292411.8 申请日: 2020-04-14
公开(公告)号: CN111523532A 公开(公告)日: 2020-08-11
发明(设计)人: 祁健升 申请(专利权)人: 广东小天才科技有限公司
主分类号: G06K9/20 分类号: G06K9/20;G06F40/216;G06F40/284;G06F40/58
代理公司: 广州德科知识产权代理有限公司 44381 代理人: 万振雄;杨中强
地址: 528850 广东省东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 矫正 ocr 文字 识别 错误 方法 终端设备
【说明书】:

发明实施例公开了一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质,用于基于第一英文单词识别结果,先利用OCR加权编辑距离算法进行相似单词的筛选,然后通过语句通顺度模型输出矫正后的英文单词,从而提升OCR准确率,为用户在使用指尖查单词中提供更精准的单词识别结果。本发明实施例方法包括:对图片进行英文OCR处理,得到第一英文单词识别结果;对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,并得到与所述错误单词对应的候选正确单词;将所述候选正确单词代替所述错误单词,输入到语句通顺度模型进行判断,确定目标正确单词;将所述目标正确单词代替所述错误单词,输出第二英文单词识别结果。

技术领域

本发明涉及教育技术领域,尤其涉及一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质。

背景技术

在现有技术中,通过OCR(Optical Character Recognition,光学字符识别)技术,将图片、照片上的文字内容,直接转换为可编辑文本的软件。软件可以把图片转换成可以编辑的文字。但是,在现有的识别技术中,英语OCR识别出图片中的英文单词并不通过任何检测判断是否OCR正确逻辑将结果呈现给用户,所以,存在OCR准确率低等缺点。

发明内容

本发明实施例提供了一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质,用于基于第一英文单词识别结果,先利用OCR加权编辑距离算法进行相似单词的筛选,然后通过语句通顺度模型输出矫正后的英文单词,从而提升OCR准确率,为用户在使用指尖查单词中提供更精准的单词识别结果。

有鉴于此,本发明第一方面提供了一种矫正OCR文字识别错误的方法,可以包括:

对图片进行英文OCR处理,得到第一英文单词识别结果;

对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,并得到与所述错误单词对应的候选正确单词;

将所述候选正确单词代替所述错误单词,输入到语句通顺度模型进行判断,确定目标正确单词;

将所述目标正确单词代替所述错误单词,输出第二英文单词识别结果。

可选的,在本发明的一些实施例中,所述OCR加权编辑距离模型包括拼写检查模型和拼写校正模型;

其中,所述拼写检查模型包括预先编辑的N-gram表,所述第一英文单词识别结果包括英文单词输入串;

所述对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,包括:

对所述英文单词输入串中的目标n元串,在所述预先编辑的N-gram表中查找,n为2或3;

若在所述预先编辑的N-gram表中出现的频率小于预设阈值,则确定所述目标n元串为错误单词;

其中,所述拼写校正模型包括编辑距离校正方法和OCR距离校正方法中的至少一种;

所述得到与所述错误单词对应的候选正确单词,包括:

使用所述编辑距离校正方法和OCR距离校正方法中的至少一种,计算得到与所述错误单词对应的候选正确单词。

可选的,在本发明的一些实施例中,所述对图片进行英文OCR处理,得到第一英文单词识别结果,包括:

当所述图片为非英文图片时,将所述非英文图片中的非英文翻译成英文;

获取包括所述英文的图片;

对包括所述英文的图片进行英文OCR处理,得到所述第一英文单词识别结果。

可选的,在本发明的一些实施例中,所述方法还包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010292411.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top