[发明专利]一种针对相同及相似图片去重的图像数据清洗方法在审
申请号: | 201710599473.1 | 申请日: | 2017-07-23 |
公开(公告)号: | CN107480203A | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 丁琴;荆丽桦 | 申请(专利权)人: | 北京中科火眼科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 相同 相似 图片 图像 数据 清洗 方法 | ||
技术领域
本发明属于图像处理清洗领域,特别是涉及一种针对相同及相似图片去重的图像数据清洗方法。
背景技术
图像数据是互联网数据中最重要的组成元素之一,它可以更逼真地记录更多细节内容。但是,从网络海量数据中得到的图片数据,往往包含有很多相似甚至完全相同的内容,这些冗余的图像数据占据了额外的存储空间,并且使图片的处理过程变得重复和繁琐,降低整体工作效率。所以,需要对网络中得到的图像数据进行清洗,找到其中彼此相同或者高度相似的图片,完成去重任务。
针对图像数据中相似或者相同图片的筛选,目前经常采用的方法有下面几种:
(1)人工检测
人工检测的方法是最原始的图片筛选方法,该方法的优点就是精度高,缺点是该方法需要的人力成本大,检测速度慢,标准存在差异,面对海量的互联网图片数据,效果并不理想。
(2)MD5匹配
利用图片的MD5值进行相同图片的查找,能够精准的从海量网络图片中找到彼此相同的数据,而且速度比较快。而这种方法的缺点是:只能从网络中的海量数据中筛选出MD5值完全相同的图片,只要两张图片间存在一点差异,基于MD5的筛选方法就不能生效,所以,MD5不能完成对相似图片的清洗工作。
以上的针对冗余图像数据的清洗方法都不能同时满足对网络数据中相同和相似图片进行筛选时速度快,精度高而且召回率高的要求。所以,研究一种能够快速、准确的实现相同以及相似图片的清洗技术具有重要的研究价值和应用前景。
发明内容
本发明要解决的技术问题:本发明针对现有对于冗余图像数据的清洗方法中存在的问题,提出了一种用于相同相似图片去重的数据清洗方法。该方法基于现有的图像处理程序库,能够处理多种图片格式。针对现有关于冗余图像清理方法中存在的局限性问题,本发明在对图片进行特征值计算时将会根据图片的局部特征生成多个局部特征值,并将局部特征值整合在一起作为整个图片最终的特征值。
本发明的技术方案:一种针对相同及相似图片去重的图像数据清洗方法,包含图像预处理模块和相似图像去重模块;所述图像预处理模块包括图像数据集合、生成路径文件和生成特征文件;所述相似图像去重模块包括图象特征相似度计算、相似判别和去重;
所述一种针对相同及相似图片去重的图像数据清洗方法还包含如下步骤:
(1)遍历待检测设备中的所有图像数据,生成图像数据集合;
(2)根据所述图像数据集合的路径信息生成路径文件;
(3)根据所述路径文件,依次读取每张图片,对每张图片进行特定值处理,生成特征文件,并将所有图片的特征文件存入内存或文件;
(4)读取保存有所有图片的特征文件的内存或文件,对所有的特征文件进行图像特征相似度计算,根据计算结果进行相似判别,判别图像是否属相同或相似,并将相似和相同的图片找出并完成去重,最后输出清洗后的图像数据集合。
进一步的,所述步骤(3)中所述特定值处理还包括如下步骤:
a.将图片转换为灰度图像;
b.将所述灰度图像划分为若干个相同大小的块,对图像的大小进行调整,将每个块缩小为一个像素点;
c.计算压缩后所有像素点的均值;
d.将每个压缩像素值与均值作比较,根据与均值的大小关系对压缩像素值做二值化处理;
e.将二值化后的压缩像素值作为图像特征值写入文件,图像路径和图像特征值逐行写入,即奇数行存储图像路径,偶数行存储对应的图像特征值。
进一步的,所述步骤(4)中所述图像特征相似度计算的方法还包括:设定一个阈值,对所有图像数据的特征值进行海明距离的计算,若海明距离小于或等于这个阈值,则认为两图片相似,予以去重处理。
本发明与现有技术相比的有益效果:本发明在对图片生成特征值的时候考虑了图片的局部性因素,并对图片的局部特征值与全局平均值作比较得出最终的二值化图片特征,这样得出的图片特征值能够很好的保留图片的局部特征信息,同时也很好的保留了每个局部块之间的关系,即使图片在局部发生改变、或者整体对比度亮度发生一定程度的改变,其与原图片之间具有的高度相似性都会被发现,因此该方法在很大程度上提高了对图像数据中相似图片去重的效率和精度。
附图说明
图1是本发明的图像数据清洗方法流程图。
具体实施方式
为了加深本发明的理解,下面我们将结合附图对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科火眼科技有限公司,未经北京中科火眼科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710599473.1/2.html,转载请声明来源钻瓜专利网。