[发明专利]一种基于自然语言识别的光学字符识别纠错方法有效
申请号: | 201811614216.1 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109582972B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 林康;林路;王慜骊;安通鉴;雷钧 | 申请(专利权)人: | 信雅达科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/232;G06V30/148 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 张解翠 |
地址: | 310051 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 识别 光学 字符 纠错 方法 | ||
本发明公开一种基于自然语言识别的光学字符识别纠错方法,该纠错方法将词法分析模型和语义分析模型进行融合,得到融合模型,并用该融合模型获得高精度的光学字符识别结果。该模型考虑了中文字符在词法模型的特点,同时考虑了中文句法语义的上下文关系等显著特征来修正光学字符识别结果,提高了模型精度。
技术领域
本发明涉及图像文字识别领域,具体涉及一种基于自然语言识别的光学字符识别纠错方法。
背景技术
基于OCR的针对金融领域文字区域检测定位识别技术是指通过计算机等设备,利用OCR技术(光学字符识别)将纸质材料中的有效信息自动提取和识别出来,并进行相应处理。它是实现银行无纸化的计算机自动处理的关键技术之一。而传统的图像文字识别为光学文字识别(OCR),光学文字识别在将待识别纸质文件扫描成电子图像的基础上进行识别。但是考虑到扫描效果的好坏、纸质文件本身的品质(别如印刷质量、字体清晰度,字体规范度等)、内容布局(文字的排列情况,比普通文本与表格文本和票据)的差异,OCR的实际效果不总是让人满意。而针对不同的纸质文档的识别准确率的要求有差异,比如票据的识别,对准确率的要求是非常高的,因为如果一个数字识别错误就可能导致致命的后果,传统的OCR识别不能满足这样高精度的识别要求。面对巨大的识别需要急需能够快速高效的图像文字识别方法。现有的技术方案都没有利用自身规律对错误数据实施检查和纠正。
发明内容
本发明根据所要识别OCR字符集的已知完整集合,针对OCR软件从图像中提取出的字符串提出一种检错与纠错的方法,目的在于辅助OCR软件检查出识别结果中的错误数据并对这些错误数据实施纠正,基于字典搜索的纠错策略,以提高文字识别精度,从而提高识别结果的准确率。OCR软件从图像中提取出的这些字符串的纠错修改结果记为OCR最终识别结果。
本发明的目的是通过下述技术方案来实现的:
一种基于自然语言识别的光学字符识别纠错方法,其特征在于,该方法包括如下步骤:
S1:获取文字图像;
S2:所述文字图像经过ocr识别获得初始的识别结果;
S3:构建语料库;
S4:将初始的识别结果通过基于自然语言识别的方法进行后处理,该方法分为词法匹配和语法匹配两个步骤,具体如下:
S4.1:将初始的识别结果以固定长度按双向最大匹配的方式进行切分,当进行正向最大匹配时,从左向右取待切分中文字串的4-2个字符作为匹配字段,查找语料库并进行匹配,若匹配成功,则将这个匹配字段作为一个词切割出来;若匹配不成功,记录相似度分数较大的前k个词和相似度分数,然后将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切割出全部词为止;当进行逆向最大匹配时,从右向左取待切分中文字串的4-2个字符作为匹配字段,查找语料库并进行匹配,若匹配成功,则将这个匹配字段作为一个词切割出来;若匹配不成功,记录最大相似度分数和对应的词,然后将这个匹配字段的最前一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切割出全部词为止;当正反向切割结果相同时,则输出任意一种切割结果;当正反向切割结果不同时,则输出孤立字较少的那个切割结果,从而将初始的识别结果转化成一个等长的中文字串集合;
S4.2:计算S4.1得到的每个等长的中文字串集合的相似度分数,选取相似度分数最高的作为切割的结果,但当相似度分数最高的中文字串集合不止一个时,优选窗口长度大的字符串作为切割的位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于信雅达科技股份有限公司,未经信雅达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811614216.1/2.html,转载请声明来源钻瓜专利网。