[发明专利]一种识别重复图片的方法、图片搜索去重方法及其装置有效
申请号: | 201410247778.2 | 申请日: | 2014-06-05 |
公开(公告)号: | CN103984776B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 朱茂清;韩玉刚 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中强智尚知识产权代理有限公司11448 | 代理人: | 姜精斌,王书彪 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 重复 图片 方法 搜索 及其 装置 | ||
技术领域
本发明涉及图片识别技术领域,尤其涉及一种识别重复图片的方法、图片搜索去重方法及其装置。
背景技术
基于用户输入的图片进行搜索后,为了提高用户的体验,并提高搜索结果的准确性,一般需要对搜索到的图片进行排重处理,即识别搜索结果中的相同图片。
现有技术在识别搜索结果中的相同图片时,根据图片的内容是否相同,或者根据图片的链接地址是否相同进行简单判断,但有时相同的图片其内容可能不会,或者相同图片的链接地址也并不相同,因此采用上述方法不能达到很好的识别效果。
为了达到较好的识别效果,可以对图片进行一系列的特征量化处理,进行特征量化处理后再进行排重处理,该方法虽然可以达到比较理想的识别效果,但是耗时较长,无法满足图片搜索、提供的实时性需求。
另外,在进行相同图片识别时,也可以通过比较图片的Phash值进行判断,但是该方法需要将每两张图片的Phash值进行比较,对于海量搜索结果而言,该方法也非常的耗费时间,无法保证图片搜索提供的实时性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种识别重复图片的方法、图片搜索去重方法及其装置。
本发明实施例提供了一种识别重复图片的方法,该方法包括:
确定待识别图片的Phash值,对所述Phash值进行分段,得到分段后的每个Phash分值;
判断所述待识别图片分段后的每个Phash分值是否命中拉链数据库中其他图片分段后的Phash分值;
当待识别图片的Phash分值命中拉链数据库中其他图片的Phash分值时,确定所述待识别图片与拉链数据库中的其他图片是否重复;
否则,将所述待识别图片的信息保存到所述拉链数据库中。
为了提高相同图片的识别准确性,所述确定所述待识别图片与拉链数据库中的其他图片是否重复包括:
针对Phash分值被命中的拉链数据库中的每个其他图片,根据该待识别图片的Phash值和每个其他图片Phash值的汉明距离,确定所述待识别图片与拉链数据库中的其他图片是否重复。
为了提高相同图片的识别准确性,所述确定所述待识别图片与拉链数据库中的其他图片是否重复包括:
确定所述待识别图片与所述每个其他图片的汉明距离,提取所述汉明距离的最小值;
判断所述最小值是否小于设定的比较阈值;
当所述最小值小于设定的比较阈值时,确定所述待识别图片与拉链数据库中的其他图片重复,否则,确定该待识别图片与拉链数据库中的其他图片不重复。
为了提高相同图片的识别准确性,所述确定所述待识别图片与拉链数据库中的其他图片是否重复包括:
针对每个其他图片中的第一图片,确定该待识别图片的Phash值与该第一图片的Phash值的汉明距离,并判断该汉明距离是否小于设定的第一阈值;
当该汉明距离小于设定的第一阈值时,确定该待识别图片与该第一图片重复;
当该汉明距离不小于设定的第一阈值时,判断所述汉明距离是否小于设定的第二阈值,其中第一阈值小于第二阈值;
当所述汉明距离小于设定的第二阈值时,确定所述待识别图片与所述剩余的每个其他图片的汉明距离,提取所述汉明距离的最小值,判断所述最小值是否小于设定的第一阈值,当所述最小值小于设定的第一阈值时,确定所述待识别图片与拉链数据库中的其他图片重复,否则,确定该待识别图片与所述其他图片不重复。
为了提高相同图片的识别效率,所述将所述待识别图片的信息保存到所述拉链数据库中包括:
将所述待识别图片的Phash分值及所述待识别图片的Phash值保存在所述拉链数据库的头部,其中所述拉链数据库按照图片产生的时间,从前到后保存各图片的信息。
进一步地,所述待识别图片包括新闻图片和热点图片。
进一步地,所述对所述Phash值进行分段包括:
将所述Phash值分为多个单元段,每个单元段采用不同的比特数;
采用顺序移位方法,得到每个Phash分值。
本发明实施例提供了一种图片搜索去重的方法,该方法包括:
接收用户输入的查询词,并搜索与用户输入的查询词相匹配的图片资源;
去除图片资源中的重复图片;
将去除重复图片后的图片资源结果返回给所述用户。
进一步地,所述去除图片资源中的重复图片可以通过采用上述识别重复图片的方法得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410247778.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频检索方法及系统
- 下一篇:包皮环线切割缝合器的钉板