[发明专利]一种基于局部相似哈希算法的大规模图像库检索方法有效
申请号: | 201410440566.6 | 申请日: | 2014-09-01 |
公开(公告)号: | CN104199922B | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 张树武;张桂煊;郭勤振;曾智 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F16/53 | 分类号: | G06F16/53 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 相似 算法 大规模 图像 检索 方法 | ||
1.一种基于局部相似哈希算法的大规模图像库检索方法,包括下列步骤:
提取查询图像和待检索图像库中训练集图像的特征,具体包括以下步骤:
对所述待检索图像库中训练集的图像提取SIFT特征;
对提取的所述SIFT特征进行K均值聚类得到码本;
计算码本中每一码字的逆频率;
计算每一码字的局部敏感哈希编码;
将所述SIFT特征映射到汉明空间;
利用码本中每一码字的逆频率计算每一码字的权重,并利用所述每一码字的权重和所述每一码字的局部敏感哈希编码计算所述查询图像的局部相似哈希编码和所述待检索图像库中每一幅图像的局部相似哈希编码;计算所述查询图像的局部相似哈希编码与所述待检索图像库中每一幅图像的局部相似哈希编码之间的汉明距离,利用距离大小来衡量所述查询图像与所述待检索图像库中图像之间的相似性,返回相似度高的图像。
2.一种基于局部相似哈希算法的大规模图像库检索方法,包括下列步骤:
步骤S1,对待检索图像库中选作为训练集的全部图像提取SIFT特征,对其进行K均值聚类得到码本,再计算每一码字的逆频率;
步骤S2,利用步骤S1得到的所述码本计算待检索图像库中每一幅图像的局部相似哈希编码;
步骤S3,利用步骤S1得到的所述码本计算查询图像的局部相似哈希编码,并由此计算所述查询图像的局部相似哈希编码与所述待检索图像库中每一幅图像的局部相似哈希编码之间的汉明距离,返回所述待检索图像库中与所述查询图像汉明距离最小的S个图像作为检索结果,其中S为由用户预先设定的正整数。
3.根据权利要求2所述的基于局部相似哈希算法的大规模图像库检索方法,其中所述步骤S1进一步包括以下步骤:
步骤S11:从待检索图像库D={D1,D2,...,DN}中选取部分图像T={T1,T2,...Tn}作为训练集,其中N为待检索图像库的大小,n为训练集的大小,n≤N;
步骤S12:对所述训练集T中的全部图像分别提取SIFT特征,构成SIFT特征集合V={Vi},1≤i≤z,z为训练集图像中提取的SIFT特征总数;
步骤S13:对提取的所述SIFT特征进行K均值聚类,得到码本C={ci},其中1≤i≤q,q为码本的大小,即码字的个数;为d维的列向量;
步骤S14:通过下式计算每一码字ci的逆频率IDFi:
其中1≤i≤q,n为训练集的大小,ni为包含码字ci的图像的数量,lg表示以10为底计算对数值;
步骤S15:计算每一码字ci的局部敏感哈希编码Li,其中Li∈{-1,1}k,k是总的编码位数。
4.根据权利要求3所述的方法,其中步骤S13中所述的K均值聚类步骤进一步包括以下步骤:
步骤131:从V中随机选取q个SIFT特征作为初始聚类中心μi,1≤i≤q;
步骤132:将训练集中提取的SIFT特征按照欧氏距离最近的准则分配给q个聚类中心的某一个μi,这样所有的SIFT特征形成q个簇;计算每个簇中所有SIFT特征的均值,并将该均值作为该簇新的聚类中心μi;计算每个簇中的误差平方和,进而得到q个簇总的误差平方和;
步骤133:重复步骤132,直到总的误差平方和小于给定阈值时,K均值算法结束,并将得到的q个簇的聚类中心μi作为码本C。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410440566.6/1.html,转载请声明来源钻瓜专利网。