[发明专利]一种电子卷宗的空白页和模糊页的检测方法及装置有效
申请号: | 201910972988.0 | 申请日: | 2019-10-14 |
公开(公告)号: | CN111445433B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 贺敏;赵岳;宁柯琳;张春玮;刘明;王建超 | 申请(专利权)人: | 北京华宇信息技术有限公司 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T7/13 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 胡大成 |
地址: | 100084 北京市海淀区中关村*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子 卷宗 空白页 模糊 检测 方法 装置 | ||
本发明提供一种电子卷宗的空白页和模糊页的检测方法及装置,在检测之前,先对装置进行空白区域检测训练,形成空白区域检测模型。基于空白区域检测模型对空白页进行匹配。本发明的模糊页检测依赖于空白区域检测,并把空白区域作为清晰图像进行处理。本发明解决了现有技术中的因图像内容分布不均匀而导致的误检率高的问题,以及解决了模糊检测中空白区域容易当成模糊图像的问题。
技术领域
本发明涉及图像处理技术领域,特别涉及一种电子卷宗的空白页和模糊页的检测方法及装置。
背景技术
由于大部分的纸质卷宗是通过扫描仪和高拍仪进行数字化,因此不可避免的会因为设备的性能以及操作流程不规范产生空白卷宗图像和模糊卷宗图像。卷宗数字化的过程如图1所示。
一份卷宗由多份不同的文件组成,且很多文件是双面打印的。在批量扫描入卷的时候,奇数页的文档往往会扫描出一张空白页,虽然目前很多打印机都可以过滤空白页,但是由于卷宗文档的图像具有一定的复杂性与多样性,还是会扫描出很多空白图像。还有很多卷宗材料是通过高拍仪进行数字化的,往往会因为仪器的焦距调整不及时而产生模糊的卷宗图像。如果不能对上述现象加以人工干预,空白、模糊图像也会在扫描过程中入卷。图2为模糊图像的样例。
随着计算机视觉技术的发展,已经有很多算法应用于图像的空白和模糊检测,比如使用形态学变换方法进行空白页面的检测,使用边缘检测方法进行空白页和模糊页的检测等等。但是电子卷宗的图像和一般的照片特征有较大的区别,如果直接套用现有的算法,会造成误检率特别大。这些空白页面和模糊页面称之为“脏数据”,“脏数据”的存储不仅会对存储资源和计算资源造成浪费,也会对卷宗的归目整理以及日后查阅造成影响。
现有技术的检测方法适合检测的图像是直方图分布比较均衡(色彩分布均衡)的图像,而电子卷宗图像大部分是黑白色的,少许有红色的印章或指纹。从内容分布看,有的卷宗文字分布比较密集,有的只包含几个字符,使用现有方法对整个图像进行检测,容易应为图像内容分布问题引起误判。
大部分卷宗都是白色背景,黑色内容,使用现有方法进行模糊检测,会因为白色背景内检测不到边缘而被提高模糊的比例,进而被误判为模糊。
发明内容
有鉴于此,为了解决现有技术中的因图像内容分布不均匀而导致的误检率高,以及模糊检测中空白区域容易当成模糊图像的问题,本发明提供一种电子卷宗的空白页和模糊页检测方法及装置。本发明的目的是在卷宗数字化过程中把空白页和模糊页在入卷之前检测出来,从而可以提醒扫卷人员进行下一步操作。
第一方面,本发明提供一种电子卷宗的空白页和模糊页的检测方法,包括检测前的训练步骤和检测步骤,所述的检测前的训练步骤包括:
步骤S101、对各种类型的图像分别裁剪,并对裁剪后的图像进行空白区域和正常区域的标注;
步骤S102、对标注好的图像进行滤波和提取图像边缘特征的预处理;
步骤S103、将预处理好的图像形成训练集;
步骤S104、对训练集进行学习,形成空白区域检测模型;
所述的检测步骤,是基于空白页检测模型对待检测的图像进行检测,并输出检测结果。
优选的,所述的训练集包括空白区域集和正常区域集。
优选的,所述的检测步骤包括空白页检测步骤和模糊页检测步骤。
优选的,所述的空白页检测步骤包括:
步骤S201、将待检测图像裁剪成至少一个窗口;
步骤S202、依次对每个窗口都进行图像滤波和边缘特征提取的预处理操作;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华宇信息技术有限公司,未经北京华宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910972988.0/2.html,转载请声明来源钻瓜专利网。