[发明专利]重复图片检测方法与装置有效
申请号: | 201911308553.2 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111078914B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 钟松辉;陆明;姜东 | 申请(专利权)人: | 书行科技(北京)有限公司 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/55;G06F16/51;G06F16/583 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 任美玲 |
地址: | 100089 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重复 图片 检测 方法 装置 | ||
本发明提供的重复图片检测方法与装置,在获取到待查询图片后,获取待查询图片的感知哈希值与深度学习特征,并判断图片信息库中是否存在与待查询图片的感知哈希值完全相同的目标感知哈希值,若是,则基于聚类簇点判断来确定待查询图片是否为重复图片;若否,则结合深度学习特征与图像相似索引来确定待查询图片是否为重复图片。本发明通过联合感知哈希算法与深度学习特征,来进行重复图像检测过程,其中利用簇点信息和深度学习特征来提高感知哈希准确度,利用深度学习特征与图片相似索引来快速召回无法被感知哈希召回的相似图片,从而能够准确且快速地检测出待查询图片是否为已有图片的重复图片,提高了重复图片检测准确率、召回率与检测效率。
技术领域
本发明涉及图片检测技术领域,更具体的说,涉及重复图片检测方法与装置。
背景技术
在图片处理领域中,通常需要快速查询出待查询图片是否是图片库中已有图片的重复图片,这里的重复图片是指,与已有图片完全相同或者极其相似的图片。
在大规模的图片库中,已有图片的量级达到数亿级别,但是现有却需要在秒级别内从数亿量级的图片中,返回与待查询图片相同或相似的全部图片结果,来判断待查询图片是否为重复图片。目前常用的方法,通常是使用MD5算法来进行图片相似性的判断,以确定待查询图片是否为重复图片。但是,MD5算法只能够检索与待查询图片完全相同的图片,而无法检索出一些极其相似但是并不完全相同的图片,而且只要图片格式发生改变,该方法就会失效,而且无法满足在数亿量级下秒级查重的要求。
因此,目前迫切需要一种切实有效的重复图片检测方案,以实现重复图片的快速检测。
发明内容
有鉴于此,本发明提供了一种重复图片检测方法及装置,以解决现有技术无法充分检测重复图片,且检测效率较低,无法在大规模图片库中实现快速检测的技术问题。
为实现上述目的,本发明提供如下技术方案:
一种重复图片检测方法,包括:
获取待查询图片;
获取所述待查询图片的感知哈希值与深度学习特征;
在预置的图片信息库中查询所述待查询图片的感知哈希值,所述图片信息库中至少存储有已有图片的感知哈希值;
当所述图片信息库中存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,获取所述目标感知哈希值对应的已有图片,作为第一参考图片;判断所述待查询图片是否落入到预设簇点中;若所述待查询图片落入到所述预设簇点中,则计算所述待查询图片与所述第一参考图片之间的第一欧式距离;当所述第一欧式距离大于第一距离阈值时,确定所述待查询图片不是已有图片的重复图片;当所述第一欧式距离不大于所述第一距离阈值时,确定所述待查询图片是已有图片的重复图片;若所述待查询图片未落入到所述预设簇点中,则确定所述待查询图片不是已有图片的重复图片;
当所述图片信息库中不存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,从预置的图片相似索引中,获取所述待查询图片的深度学习特征对应的目标索引;获取所述目标索引对应的已有图片,作为第二参考图片;根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片。
一种重复图片检测装置,包括:
待查图片获取单元,用于获取待查询图片;
图片特征获取单元,用于获取所述待查询图片的感知哈希值与深度学习特征;
感知哈希查询单元,用于在预置的图片信息库中查询所述待查询图片的感知哈希值,所述图片信息库中至少存储有已有图片的感知哈希值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于书行科技(北京)有限公司,未经书行科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911308553.2/2.html,转载请声明来源钻瓜专利网。