[发明专利]一种基于局部相似哈希算法的大规模图像库检索方法有效
申请号: | 201410440566.6 | 申请日: | 2014-09-01 |
公开(公告)号: | CN104199922B | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 张树武;张桂煊;郭勤振;曾智 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F16/53 | 分类号: | G06F16/53 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 相似 算法 大规模 图像 检索 方法 | ||
一种基于局部相似哈希算法的大规模图像库检索方法,包括:从待检索图像库中选取部分图像作为训练图像集,提取训练集图像的SIFT特征;利用K均值算法对训练集的SIFT特征进行聚类,得到码本;在训练集上计算码本中每一码字的逆频率;对每一码字进行局部敏感哈希编码;对查询图像和待检索图像库中图像分别提取SIFT特征;针对某一幅图像计算其中每一码字的词频,进而得到每一码字的权重;利用相似哈希算法计算图像的局部相似哈希编码;计算查询图像的哈希编码与待检索图像的哈希编码之间的汉明距离;利用汉明距离来快速检索与查询图像相似的图像。本发明的方法具有很好的普适性,既减少了数据的存储空间又提高了查询的检索效率。
技术领域
本发明属于图像检索技术领域,更具体地涉及一种基于内容的图像检索方法,尤其是一种基于局部相似哈希算法的大规模图像库检索方法。
背景技术
随着互联网的快速发展,互联网上的图片数据日益增多。如何快速、准确地为用户提供所需要的图片资源显得越来越重要。基于内容的图像检索(content-based imageretrieval,CBIR)技术应运而生,受到了许多研究者的关注。一般来说CBIR系统主要包括两部分的核心研究内容,一是有效的图像特征表述,二是高效检索算法。
图像特征表述方面,最初的CBIR系统利用图像的全局底层特征,例如颜色、纹理、形状等来表述图像。但是这类全局特征不能很好地捕捉到图像的局部信息,因此判别性不高。基于SIFT(Scale Invariant Feature Transform,尺度不变特征转换,具体含义例如参见文章David G.Lowe,“Distinctive image features from scale invariantkeypoints”,International Journal ofComputer Vision,66(2),2004)局部特征的词袋模型(BOW) (相关内容例如参见文章Josef Sivic and Andrew Zisserman,“Videogoogle: A text retrieval approach to object matching in videos”,InProceedings of International Conference on Computer Vision,2003),是一种新颖的图像表述方法。在BOW中,首先提取图像的局部SIFT特征,然后将SIFT特征量化成码本(codebook),最后利用码本的信息来表示图像。
检索算法方面主要包括基于树的检索算法和基于哈希的检索算法。基于树的检索算法利用超平面递归地划分整个数据空间,在数据比较低维的情况下效果很好,但是当数据维度比较高的时候,基于树的检索算法会退化成穷尽搜索。基于哈希的检索算法的主要思想是将原始数据映射成汉明空间中的二进制数值串(binary string),数据之间的相似度可以利用它们在汉明空间的二进制数值串之间的汉明距离来度量。基于哈希的高效检索算法有两个主要优点:一是可以减少数据存储空间;二是可以提高检索效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410440566.6/2.html,转载请声明来源钻瓜专利网。