[发明专利]一种基于OCR技术的辅助审计方法在审
申请号: | 202110127714.9 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112861865A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 田桂申;宋猛;白雪娇;刘丽娟;姚玲;曾界;徐尤华;曾颖 | 申请(专利权)人: | 国网内蒙古东部电力有限公司;南京南瑞信息通信科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06F40/186;G06K9/00;G06K9/46;G06K9/62 |
代理公司: | 北京中建联合知识产权代理事务所(普通合伙) 11004 | 代理人: | 孙彦斌;晁璐松 |
地址: | 010010 内蒙古自治*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ocr 技术 辅助 审计 方法 | ||
1.一种基于OCR技术的辅助审计方法,其特征在于,包括如下步骤:
获取待识别的审计文档图像;
对所述审计文档图像进行预处理,得到所述审计文档图像的预处理图像;
对所述预处理图像进行版面分析,得到所述预处理图像的多个文本行;
采用优化的字符切割方法对所述多个文本行中的字符串进行切割,得到多个单个字符的切割图像;
对多个所述单个字符的切割图像进行特征提取与识别,得到识别结果;
将所述识别结果进行版面恢复,输出可编辑文档;
根据审计工作流程对所述可编辑文档进行结构化处理,生成审计数据报表并输出。
2.根据权利要求1所述的基于OCR技术的辅助审计方法,其特征在于,所述审计文档图像包括审计底稿图像、审计报告图像、审计附件图像和审计过程文件图像,所述审计文档图像的文件类型包括JPG、PNG、PDF和CEB中的任一种。
3.根据权利要求1所述的基于OCR技术的辅助审计方法,其特征在于,所述对所述审计文档图像进行预处理,得到所述审计文档图像的预处理图像包括:
采用幂次交换法对所述审计文档图像进行二值化处理,得到二值化处理图像;
对所述二值化处理图像进行降噪和倾斜校正处理,得到所述审计文档图像的预处理图像。
4.根据权利要求1所述的基于OCR技术的辅助审计方法,其特征在于,采用行列识别抽象法对所述预处理图像进行版面分析,得到所述预处理图像的多个文本行包括:
对所述预处理图像中的文档进行分段处理,得到多个版面区域的文本块;
对所述多个版面区域的文本块进行分行处理,得到所述预处理图像的多个文本行;
计算所述多个文本行的纵坐标,根据所述纵坐标识别所述多个文本行的所属行。
5.根据权利要求1所述的基于OCR技术的辅助审计方法,其特征在于,所述采用优化的字符切割方法对所述多个文本行中的字符串进行切割,得到多个单个字符的切割图像包括:
采用水平投影法对所述预处理图像中的多个文本行进行行切割,得到所述多个文本行的行图片;
判断所述行图片中的字符串是否为连续的汉字字符串,如果是,根据优化的汉字切割阈值对所述行图片中的字符串进行字切割,得到多个汉字切割图像;
否则,采用垂直投影法对所述行图片中的字符串进行字切割,得到多个单字符的切割图像。
6.根据权利要求5所述的基于OCR技术的辅助审计方法,其特征在于,所述判断所述行图片中的字符串是否为连续的汉字字符串的方法为:
计算多个所述行图片中的字符串的长宽比,当所述长宽比为整数时,则判断所述行图片中的字符串为连续的汉字字符串。
7.根据权利要求5所述的基于OCR技术的辅助审计方法,其特征在于,所述优化的汉字切割阈值为1:1。
8.根据权利要求1所述的基于OCR技术的辅助审计方法,其特征在于,所述对多个所述单个字符的切割图像进行特征提取与识别,得到识别结果包括:
采用核密度估计法对多个所述单个字符的切割图像进行特征提取,得到多个字符特征向量;
将所述多个字符特征向量与特征模板库中的字符相匹配,得到识别结果。
9.根据权利要求1所述的基于OCR技术的辅助审计方法,其特征在于,所述将所述识别结果进行版面恢复,输出可编辑文档包括:
将所述识别结果按照所述待识别的审计文档图像的版面进行排版,并输出可编辑文档,其中所述可编辑文档包括word格式文档和pdf格式文档。
10.根据权利要求1所述的基于OCR技术的辅助审计方法,其特征在于,所述根据审计工作流程对所述可编辑文档进行结构化处理,生成审计数据报表并输出包括:
根据审计工作流程获取审计信息数据,并将所述审计信息数据存储到数据库中,其中所述审计信息数据包括项目名称、项目类型、组织单位、实施单位和开展年度;
根据当前审计工作流程导出相应的审计信息数据,对所述审计信息数据进行统计分析和定制化排版,生成审计数据报表并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网内蒙古东部电力有限公司;南京南瑞信息通信科技有限公司,未经国网内蒙古东部电力有限公司;南京南瑞信息通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110127714.9/1.html,转载请声明来源钻瓜专利网。