[发明专利]一种基于建模的OCR识别结果判决方法和设备有效

专利信息
申请号: 201910323742.0 申请日: 2019-04-22
公开(公告)号: CN110059705B 公开(公告)日: 2021-11-09
发明(设计)人: 郝占龙;庄国金;陈文传;杜保发;林玉玲;吴建杭;方恒凯 申请(专利权)人: 厦门商集网络科技有限责任公司
主分类号: G06K9/46 分类号: G06K9/46;G06K9/34
代理公司: 福州科扬专利事务所(普通合伙) 35001 代理人: 何小星
地址: 361101 福建省厦*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 建模 ocr 识别 结果 判决 方法 设备
【说明书】:

本发明涉及一种基于建模的OCR识别结果判决方法,包括如下步骤:建立字符图像的特征提取模型;将确认无误的各字符图像输入所述特征提取模型,得到各个字符对应的标准特征矩阵,建立包含所述标准特征矩阵的标准字符特征库;通过OCR识别引擎识别文本,得到OCR识别图像;通过所述特征提取模型获得OCR识别图像中各字符的单字符特征矩阵;逐一将字符的单字符特征矩阵与该字符对应的标准字符特矩阵进行比较,判定OCR识别结果的正确性。本发明的优点:建立字符图像的特征提取模型并利用该模型将图像转换为特征矩阵,比较识别结果图像中各字符图像的特征矩阵与对应标准特征矩阵,从而判定识别结果的正确性,使识别结果精确率高于99.95%,且提高工作效率。

技术领域

本发明涉及一种基于建模的OCR识别结果判决方法,属于模型应用领域。

背景技术

现有的文本、图像一般通过自动识别录入计算机。由于OCR识别算法的识别准确率可达99%,因此,一般通过OCR识别实现自动录入。但在金融税务等领域,99%的识别准确率仍无法满足其要求,因此,还必须使用人工进行二次、甚至三次的识别结果核对工作,找出识别错误的位置,这样浪费了大量人力资源,提高了录入成本。

公布号为CN106650715A的发明专利《一种根据允许集对字符串OCR识别结果检错与纠错的方法》公开的技术方案是:通过对允许集和OCR识别结果集作差,可以获得识别错误的字符串;利用字符串的允许集,可以纠正不可存在字符串。该技术方案必须事先确定其允许集合,随着识别文本的变化,必须同步更新允许集,操作复杂且使用范围受限,不能同时对各种文本的OCR识别结果进行检错、纠错。

发明内容

为了解决上述技术问题,本发明提供一种基于建模的判决方法,其能够自对自动识别结果进行核验,判断识别结果的正确性,且能够大幅提高OCR识别结果的精确率。

本发明的技术方案如下:

一种基于建模的OCR识别结果判决方法,包括如下步骤:

建立字符图像的特征提取模型;将标准的各字符图像输入所述特征提取模型,得到各个字符对应的标准特征矩阵,建立包含所述标准特征矩阵的标准字符特征库;通过OCR识别引擎识别文本,得到OCR识别图像;通过所述特征提取模型获得OCR识别图像中各字符的单字符特征矩阵;逐一将字符的单字符特征矩阵与该字符对应的标准字符特矩阵进行比较,判断二者之间的相似度,判定OCR识别结果的正确性。

更优地,特征提取模型获得所述单字符特征矩阵的步骤为:将OCR识别图像进行单字符切割,生成单字符图像,将各单字符图像逐个输入所述特征提取模型得到单字符特征矩阵。

更优地,所述OCR识别图像进行单字符切割,生成单字符图像的同时,还生成单字符图像在OCR识别图像中的坐标信息;判定字符识别错误时,根据该单字符图像的坐标信息在OCR识别图像中定位出错位置并提示用户。

更优地,所述特征提取模型为Lenet、AlexNet、VggNet、ResNet、GoogLeNet其中一种卷积神经网络。

更优地,所述特征提取模型采用softmax损失函数,使用单字符样本训练所述特征提取模型,所述softmax损失函数的值不再减少,完成模型收敛。

更优地,所述将单字符特征矩阵与该单字符对应的标准字符特矩阵进行比较的步骤为:通过欧氏距离,余弦距离或马氏距离计算单字符特征矩阵与该单字符对应的标准字符特矩阵的相似度,当相似度值小于预设的阈值时,判定该字符识别正确。

更优地,所述将单字符特征矩阵与该单字符对应的标准字符特矩阵进行比较是采用软阈值模型进行判决,所述软阈值模型为:y=f(S,P),其中,y为判决结果,函数为非线性函数或线性函数,S表示标准特征矩阵,P表示单字符特征矩阵。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门商集网络科技有限责任公司,未经厦门商集网络科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910323742.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top