[发明专利]文档去噪方法、装置、设备和介质在审
申请号: | 202310525026.7 | 申请日: | 2023-05-10 |
公开(公告)号: | CN116580404A | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 张海轩 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06V30/164 | 分类号: | G06V30/164;G06V10/82;G06V30/19;G06N3/0475;G06N3/0464 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 赵婷 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 方法 装置 设备 介质 | ||
本公开提供了一种文档去噪方法,可以应用于人工智能技术领域。该方法包括:基于编解码结构的融合网络模型,利用编码模块对输入的第一文档图像进行特征压缩;以及利用解码模块对编码模块的输出进行图像还原后输出第二文档图像,其中,第二文档图像用作光学字符识别系统的输入。其中,编码模块包括至少一个卷积层,在每个卷积层中利用区域生成网络在卷积层的输入特征图上通过滑动窗口产生搜索框,并对每个搜索框进行分类,分类包括冗余和不冗余两类;利用特征提取子网络对分类到不冗余的类别中的搜索框进行特征提取,得到卷积层的输出特征图。本公开还提供了一种文档去噪装置、设备、存储介质和程序产品。
技术领域
本公开涉及人工智能技术领域,更具体地涉及一种文档去噪方法、装置、设备、介质和程序产品。
背景技术
目前,当一些文件被扫描、传真、复制和打印时,由于一些外部环境的因素,极易导致文档的原始形式变得模糊,并且由于它们的变形,导致其无法以更永久的数字形式进行记录。文档中的噪声严重阻碍了光学字符识别系统的性能以及后续的数字化和分析。
现有的图像识别方法往往更关注于消除图像(如自然景观)中的噪声,而不是书面文件。同时,尽管在图像处理和计算机视觉应用中,深度神经网络从低级去噪到高级识别、去模糊、超分辨率、图像修补和从压缩图像中恢复原始图像具有较优的性能,但在进行文档去噪的任务中性能较差,在处理自然和人为因素导致的文档退化等问题时仍有待提高。
发明内容
鉴于上述问题,本公开提供了提高文档图像质量以提高文字识别效率的文档去噪方法、装置、设备、介质和程序产品。
本公开实施例的第一方面,提供了一种文档去噪方法。所述方法包括:向训练好的融合网络模型输入第一文档图像,其中,所述融合网络模型包括编码模块和解码模块;利用所述编码模块对所述第一文档图像进行特征压缩;以及利用所述解码模块对所述编码模块的输出进行图像还原后输出第二文档图像。其中,所述编码模块包括至少一个卷积层,其中,所述卷积层包括区域生成网络和特征提取子网络;其中,所述利用所述编码模块对所述第一文档图像进行特征压缩包括:利用所述区域生成网络在所述卷积层的输入特征图上通过滑动窗口产生搜索框,并对每个搜索框进行分类,所述分类包括冗余和不冗余两类;利用所述特征提取子网络对分类到不冗余的类别中的搜索框进行特征提取,得到所述卷积层的输出特征图。
根据本公开的实施例,所述利用所述区域生成网络对每个搜索框进行分类包括:基于非极大值抑制算法对每个搜索框进行分类。
根据本公开的实施例,所述利用所述特征提取子网络对分类到不冗余的类别中的搜索框进行特征提取包括:利用感兴趣区域ROI子网络对所述分类到不冗余的类别中的搜索框,划分成与所述输出特征图的维度相同大小的部分,并将每个部分的最大值作为所述输出特征图中每个位置的输出。
根据本公开的实施例,所述利用所述编码模块对所述第一文档图像进行特征压缩包括:通过密集连接,所述编码模块中除最后一个卷积层以外的每个卷积层,将该卷积层的输出输入到其后所有的卷积层中。
根据本公开的实施例,所述融合网络模型还包括空洞空间金字塔池化模块,在所述利用所述解码模块对所述编码模块的输出进行图像还原之前,所述方法还包括:将所述编码模块的输出作为空洞空间金字塔池化模块的输入,利用所述空洞空间金字塔池化模块进行特征融合;以及将所述空洞空间金字塔池化模块的输出,输入到所述解码模块。
根据本公开的实施例,所述融合网络模型还包括条件随机场,所述利用所述解码模块对所述编码模块的输出进行图像还原之后,所述方法还包括:将所述解码模块的输出作为所述条件随机场的输入,利用所述条件随机场处理后输出所述第二文档图像。
根据本公开的实施例,所述方法还包括:利用所述光学字符识别系统识别所述第二文档图像中的文字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310525026.7/2.html,转载请声明来源钻瓜专利网。