[发明专利]一种基于OCR技术的辅助审计方法在审
申请号: | 202110127714.9 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112861865A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 田桂申;宋猛;白雪娇;刘丽娟;姚玲;曾界;徐尤华;曾颖 | 申请(专利权)人: | 国网内蒙古东部电力有限公司;南京南瑞信息通信科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06F40/186;G06K9/00;G06K9/46;G06K9/62 |
代理公司: | 北京中建联合知识产权代理事务所(普通合伙) 11004 | 代理人: | 孙彦斌;晁璐松 |
地址: | 010010 内蒙古自治*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ocr 技术 辅助 审计 方法 | ||
本发明公开了一种基于OCR技术的辅助审计方法,包括获取待识别的审计文档图像,对审计文档图像进行预处理,得到审计文档图像的预处理图像,对预处理图像进行版面分析,得到预处理图像的多个文本行,采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像,对多个单个字符的切割图像进行特征提取与识别,得到识别结果,将识别结果进行版面恢复,输出可编辑文档,根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出。本发明将传统的文字识别方法与审计工作流程相融合,通过对传统的文字识别算法进行优化改进,提高了文字识别的准确率,方便了审计人员的审计工作,提高了工作效率。
技术领域
本发明属于文字识别技术领域,特别涉及一种基于OCR技术的辅助审计方法。
背景技术
随着数字化技术的发展,通过数字化技术手段开展线上审计工作可以大大提高审计人员的工作效率,在传统的审计工作流程中,审计人员需要编写审计记录、审计报告及其他审计相关工作资料,由于审计文本内容多为汉字,如果利用OCR文字识别技术将特定的审计信息整合自动生成相应的审计报表可大大缩减审计人员的工作量,提升审计工作效率。OCR(OpticalCharacter Recognition)光学字符识别是一种通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。典型的OCR技术路线主要分为输入,图像预处理,文字检测,文本识别,输出几个步骤,图像预处理通常是针对图像的成像问题进行修正。文字检测即检测文本的所在位置和范围及其布局,通常包括版面分析和文字行检测等。文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。文本识别技术为OCR识别中重要的一个环节,传统技术中采用模板匹配的方式进行分类,对于文字行,只能通过识别出每一个字符来确定最终文字行从内容。因此可以对文字行进行字符切分,以得到单个文字。这种方式中,过分割-动态规划是最常见的切分方法,由于单个字符可能会由于切分位置的原因产生多个识别结果,例如“如”字在切分不当时会被切分成“女_口”,因此需要对候选字符进行过分割,使其足够破碎,之后通过动态规划合并分割碎片,得到最优组合,这一过程需要人工设计损失函数。同时,传统技术通过识别每个单字符以实现全文的识别,这一过程导致了上下文信息的丢失,对于单个字符有较高的识别正确率,但整体条目识别正确率也难以保证。
发明内容
为了解决上述问题,本发明提供一种基于OCR技术的辅助审计方法,以解决采用传统的文字识别方法对审计文档中的单个汉字识别正确率不高的问题。
为实现上述目的,本发明提供了一种基于OCR技术的辅助审计方法,包括如下步骤:
获取待识别的审计文档图像;
对审计文档图像进行预处理,得到审计文档图像的预处理图像;
对预处理图像进行版面分析,得到预处理图像的多个文本行;
采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像;
对多个单个字符的切割图像进行特征提取与识别,得到识别结果;
将识别结果进行版面恢复,输出可编辑文档;
根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出。
根据本发明的一个具体实施例,审计文档图像包括审计底稿图像、审计报告图像、审计附件图像和审计过程文件图像,审计文档图像的文件类型包括JPG、PNG、PDF和CEB中的任一种。
根据本发明的一个具体实施例,对审计文档图像进行预处理,得到审计文档图像的预处理图像包括:
采用幂次交换法对审计文档图像进行二值化处理,得到二值化处理图像;
对二值化处理图像进行降噪和倾斜校正处理,得到审计文档图像的预处理图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网内蒙古东部电力有限公司;南京南瑞信息通信科技有限公司,未经国网内蒙古东部电力有限公司;南京南瑞信息通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110127714.9/2.html,转载请声明来源钻瓜专利网。