[发明专利]一种基于ocr的文档对比识别方法和系统在审
申请号: | 202010797221.1 | 申请日: | 2020-08-10 |
公开(公告)号: | CN112149401A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 朱杰;郭鑫;陈朕;魏峰;林志远 | 申请(专利权)人: | 江苏群杰物联科技有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06K9/20;G06K9/32;G06K9/34;G06K9/46;G06K9/62;G06F16/903 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 吴庭祥 |
地址: | 210000 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ocr 文档 对比 识别 方法 系统 | ||
1.一种基于ocr的文档对比识别方法,其特征在于,包括如下步骤:
步骤1,获取纸质文档的图像;
步骤2,对纸质文档的图像进行二值化处理;
步骤3,判定图像中是否有印章,如果有,先清除印章,然后执行步骤4;如果没有,直接执行步骤4;
步骤4,对图像的文字区域进行文符切割,识别出字符特性,对比文字库,完成图像化文档的字符串内容获取;
步骤5,获取原电子文档的字符串内容;所述原电子文档是客户提交的需要用印的电子文档;
步骤6,根据图像化文档的字符串内容和原电子文档的字符串内容,求解LCS最长公共子序列,识别出存在差异的文字内容,将识别出存在差异的文字内容标记为错误文字,并存储存在差异的文字内容;
步骤7,重复步骤1~步骤6,将文档批量识别训练,根据比对结果,记录单个文字错误记录,并统计重复错误,提取重复错误字即相似文字,生成相似字库,通过不断的识别训练,完善相似字库;
步骤8,对相似字库中每一个文字建立对应的词典库;
步骤9,为相似字库中每一组相似字建立特征数据:在一张空白图中写入一组相似字,并分别提取放到一个100*100的矩阵中,使用一个或两个矩阵记录一组相似字的差异位置、差异区域像素点、差异矩阵大小以及文字的总像素点,将记录的数据存入特征库;
步骤10,获取新的纸质文档的图像,并执行步骤2~步骤6,当文字再次被标记为错误,即再次识别出差异的文字内容时,在相似字库、特征库中查找,并输出新的结果。
2.根据权利要求1所述的方法,其特征在于,步骤2中,使用OpenCV的二值化方法对纸质文档的图像进行二值化处理。
3.根据权利要求2所述的方法,其特征在于,步骤3中,通过检查红色像素判断是否存在印章,使用OpenCV中的图片灰度方法获取图像灰度图,统计图像平均灰度值,如果平均灰度值大于阈值N1即图像亮度高,将图像中R通道值大于阈值N2的像素判断为红色印章区域,并将大于阈值N2的像素点转为白色,如果平均灰度值低于N1即图亮度低,将图像中R通道值大于阈值N3的像素判断为红色印章区域,并将大于阈值N3的像素点转为白色,通过水平投影方式计算行有效像素,用于区分行间距,去除行间距的噪声,然后将处理后的图像贴回原图像。
4.根据权利要求3所述的方法,其特征在于,步骤5中,通过海明校验方法实现纸质文档的图像化内容匹配到原电子文档具体一页内容,然后获取所述原电子文档具体一页内容的字符串内容。
5.根据权利要求4所述的方法,其特征在于,步骤6中,采用如下方法求解LCS最长公共子序列:
设定图像化文档的字符串为X,原电子文档的字符串为Y,X和Y的LCS最长公共子序列记为LCS(X,Y),当X和Y的最后一个元素相同时,只需要找到子问题LCS(Xn-1,Ym-1),即Xn-1,Ym-1的公共最长子序列,Xn-1表示比X少最后一个元素的字符串,Ym-1表示比Y少最后一个元素的字符串;当X和Y的最后一个元素不相同时,X和Y的LCS最长公共子序列求解问题会产生两个子问题:LCS(Xn-1,Ym)和LCS(Xn,Ym-1),LCS(Xn-1,Ym)能够分解成LCS(Xn-1,Ym-1)和LCS(Xn-2,Ym),采用动态规划,通过查表直接得到子问题的解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏群杰物联科技有限公司,未经江苏群杰物联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010797221.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种锥体区块、锥体区块链结构和方法
- 下一篇:一种羽毛球球头用钻孔装置