[发明专利]一种快速的海量图片去重方法有效

专利信息
申请号: 201810446311.9 申请日: 2018-05-11
公开(公告)号: CN108595710B 公开(公告)日: 2021-07-13
发明(设计)人: 杨晓春;王斌;王晓琼 申请(专利权)人: 杨晓春
主分类号: G06F16/583 分类号: G06F16/583;G06F16/51;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 110000 *** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 快速 海量 图片 方法
【说明书】:

发明公开了一种快速的海量图片去重方法,通过感知哈希算法将待去重图片中的每幅图片生成图像指纹信息;采用多组随机的哈希映射来构建图像哈希特征字典,从而去除重复图片。与现有技术相比,本发明通过构建低维图像特征生成图像指纹、构建图像哈希特征字典从而海量图像快速去重,完全去掉时间消耗较高的图像特征比对,并通过设计多次合理的哈希映射弥补低维图像特征和局部敏感哈希所造成的映射空间稀疏问题,其不仅能够快速的提取图像特征,定位重复图像,更将图像的特征比对次数降到了0次,在保证精度的情况下极大的提高了海量图像去重的效率。

技术领域

本发明涉及图片去重处理技术领域,特别是一种快速的海量图片去重方法。

背景技术

现有的重复图像去除方法首先对图像数据集合中的每一张图像提取其颜色,纹理,形状等特征,再利用特征的相似性去度量图像之间的相似性,进而达到去除重复图像的目的。但是一旦图像的数量增加到了一定的规模,此时对图像进行两两的特征比对其所需要的时间消耗是非常巨大,难以接受的。然而,对于海量的图像数据来说,图像集合中的大部分图像之间是没有关系的,因而对其进行两两特征比对不仅对图像的去重没有贡献,而且消耗了大量的运算时间,使得海量图片去重的效率低下,时间消耗较高。MD5签名是一种加密哈希值,其具有不可逆性,码位特性及高度的离散性,一般情况下其可以唯一的代表原信息的特征,因此被广泛应用于重复图像检测中。但是MD5签名具有高度的局限性,例如对于txt文档,其MD5值是根据其二进制数据计算的。对于此txt文档的复制版,如果其相对于原txt文档有细微的变换,例如缩进格式,其MD5签名与原版的txt文档相比也会有着天壤之别。因此MD5签名只能判断出完全未经修改的文件,对于经过轻微缩放或调色的图像,其无法进行判断。感知哈希算法是Neal Krawetz提出的关键技术,其不是以严格的方式计算哈希值,而只是通过判断图像相邻像素的差异,为图像生成一个指纹(字符串格式),对于待比较的两张图像,通过对比其指纹,计算两张图像之间指纹的汉明距离,即可判断出其图像相似度,进而检索相似图像。然而,感知哈希算法只是在进行两张图像对比时,通过图像指纹的生成,加快了两张图像之间的对比速度,只适用于对于给定图像数据库和待检索图像时,进行图像检索的进程,并没有减少大规模图像之间的特征比对次数,然而图像之间的特征比对无疑是最耗费时间的,因此其并不适用于海量图像的快速特征比对。其也就无法满足快速的海量图像去重问题。

鉴于对图像特征进行特征比对,以搜寻重复图像的过程中,因为要对每两张图像都做图像对比,因此其图像比对消耗的时间随着图像数据量的增加呈现指数增长的趋势。而通过合理的哈希映射,将相似的图像映射到同一个哈希桶中,可以减少图像特征比对次数,降低重复图像搜索的时间消耗。但是相对于高维的图像特征被映射到低维的哈希桶中形成m维哈希特征的时候,其高维的图像特征相对于m维的汉明空间来说是非常稀疏的,如果只比较稀疏的图像低维特征作为提取的图像特征,并将其作为图像本身的特征,这会造成大量不同的图像出现在相同的哈希桶中,使得对于同一哈希桶中的图像还需要采取多次两两精确特征比对才能最终搜索到重复的图像,并且对于不同的图像其也可能具有相同的哈希编码,导致图像删除错误。

发明内容

本发明的目的是要现有技术中存在的不足,提供一种快速的海量图片去重方法。

为达到上述目的,本发明是按照以下技术方案实施的:

一种快速的海量图片去重方法,包括以下步骤:

步骤1,通过感知哈希算法将待去重图片中的每幅图片生成图像指纹信息;

步骤2,采用多组随机的哈希映射来构建图像哈希特征字典,从而去除重复图片。

进一步的技术方案为,所述步骤1中,首先将每幅图片转换成8*8大小的单一灰度图像,然后通过图像指纹生成算法生成图像指纹编码,其中图像指纹生成算法的公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杨晓春,未经杨晓春许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810446311.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top