[发明专利]一种文字识别纠错方法、纠错系统及计算机装置有效

专利信息
申请号: 201710813109.0 申请日: 2017-09-11
公开(公告)号: CN107633250B 公开(公告)日: 2023-04-18
发明(设计)人: 刘晨 申请(专利权)人: 畅捷通信息技术股份有限公司
主分类号: G06V30/148 分类号: G06V30/148
代理公司: 北京友联知识产权代理事务所(普通合伙) 11343 代理人: 尚志峰;汪海屏
地址: 100094 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文字 识别 纠错 方法 系统 计算机 装置
【说明书】:

发明提出了一种文字识别纠错方法、纠错系统、计算机装置及计算机可读存储介质,文字识别纠错方法包括:提出了一种文字识别纠错方法,包括:获取文字图片,对文字图片进行识别得到文字识别结果;检测文字识别结果,确定识别错误区域;获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;筛选错误文字的相似候选集;对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;将纠错结果与错误文字进行替换。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了OCR的准确率。

技术领域

本发明涉及文字识别技术领域,具体而言,涉及一种文字识别纠错方法、纠错系统、计算机装置及计算机可读存储介质。

背景技术

云智能服务在进行单据识别系统的研发过程中会使用文字识别技术,文字识别也是系统的主要模块,但是由于图片像素、清晰度、噪音等问题导致文字识别准确率不高,因而对识别错误结果分析和分类时发现大部分被识别成字形相似的字,如“成”识别成了“咸”,因此如何进行纠错进而提升文字识别的准确率成为亟待解决的问题。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此,本发明的一个方面在于提出了一种文字识别纠错方法。

本发明的另一个方面在于提出了一种文字识别纠错系统。

本发明的再一个方面在于提出了一种计算机装置。

本发明的又一个方面在于提出了一种计算机可读存储介质。

有鉴于此,根据本发明的一个方面,提出了一种文字识别纠错方法,包括:获取文字图片,对文字图片进行识别得到文字识别结果;检测文字识别结果,确定识别错误区域;获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;筛选错误文字的相似候选集;对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;将纠错结果与错误文字进行替换。

本发明提供的文字识别纠错方法,首先获取文字图片,对该文字图片进行OCR(Optical Character Recognition,光学字符识别)获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了OCR的准确率。

其中,文字的存在概率是通过对于要识别的领域收集一些文章,对文章进行二元和三元分词,即“计算机”分词为:“计算机”,“计算”,“算机”;这样就会训练出自然场景中字和字之间出现的概率。

根据本发明的上述文字识别纠错方法,还可以具有以下技术特征:

在上述技术方案中,优选地,筛选错误文字的相似候选集的步骤,具体包括:根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于畅捷通信息技术股份有限公司,未经畅捷通信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710813109.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top