[发明专利]一种基于树形聚类矢量量化的图像检索方法在审

专利信息
申请号: 201910137102.0 申请日: 2019-02-25
公开(公告)号: CN109918529A 公开(公告)日: 2019-06-21
发明(设计)人: 丰江帆;付雪君;夏英;周耀;韩思祺 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/583 分类号: G06F16/583;G06F16/56;G06F16/51;G06K9/62
代理公司: 重庆市恒信知识产权代理有限公司 50102 代理人: 李金蓉
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 图像检索 聚类 聚类矢量 预处理 量化 图像 高维特征向量 准确度 图片 语义 聚类算法 矢量量化 矢量特征 数据空间 特征抽取 矢量 树模型 算法 指纹 检索 查找 保存 制定 学习
【说明书】:

发明请求保护一种基于树形聚类矢量量化的图像检索方法,包括步骤:S1对图片进行预处理并提取出图片的矢量特征;S2对图像的矢量进行聚类;S3使用递归聚类对数据空间进行划分;S4根据制定的规则使聚类停止;S5保存图片的路径指纹以及树模型。本发明基于树形聚类的矢量量化算法,并利用深度学习模型的特征抽取能力提取出图片的高维特征向量,充分表达了图像的内容与语义,结合了树形聚类算法的查找能力,提升了图像检索的准确度以及检索速度。

技术领域

本发明属于图像检索领域,特别涉及基于树形聚类的矢量量化算法和深度学习的特征提取方法以及两种方法的结合。

背景技术

随着移动互联网技术的飞速发展,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。例如,Facebook注册用户超过10亿,每月上传超过10亿的图片;Flickr图片社交网站2015年用户上传图片数目达7.28亿,平均每天用户上传约200万的图片;中国最大的电子商务系统淘宝网的后端系统上保存着286亿多张图片。针对这些包含丰富视觉信息的海量图片,如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像,成为多媒体信息检索领域研究的热点。

从宏观上对ANN(Approximate Nearest Neighbor,此ANN非彼ANN,ArtificialNeural Network)有下面的认知很有必要:brute-force搜索的方式是在全空间进行搜索,为了加快查找的速度,几乎所有的ANN方法都是通过对全空间分割,将其分割成很多小的子空间,在搜索的时候,通过某种方式,快速锁定在某一(几)子空间,然后在该(几个)子空间里做遍历。可以看到,正是因为缩减了遍历的空间大小范围,从而使得ANN能够处理大规模数据的索引。在大数据时代,如何快速的进行图像搜索呢,现有图像搜索方法大致可以分为三类:基于树的方法、基于哈希方法、基于矢量量化的方法。

基于树的方法采用树这种数据结构的方法来表达对全空间的划分,其中又以KD树最为经典。图1是KD树对全空间的划分过程,以及用树这种数据结构来表达的一个过程。

一般而言,在空间维度比较低的时候,KD树是比较高效的,当空间维度较高时,可以采用下面的哈希方法或者矢量量化方法。

局部敏感哈希(Local Sensitive Hashing,LSH)。哈希,顾名思义,就是将连续的实值散列化为0、1的离散值。当一个函数(或者更准确的说,哈希函数家族)具有如下属性的时候,我们说该哈希函数是局部敏感的:相近的样本点对比相远的样本点对更容易发生碰撞。LSH划分空间示意图如图2所示。

对于brute force搜索,需要遍历数据集中的所有点,而使用哈希则首先找到查询样本落入在哪个cell(即所谓的桶)中,如果空间的划分是在想要的相似性度量下进行分割的,则查询样本的最近邻将极有可能落在查询样本的cell中,如此只需要在当前的cell中遍历比较,而不用在所有的数据集中进行遍历,因此遍历速度非常快,但使用哈希检索也极易发生碰撞,划分粒度不细。

矢量量化方法,即vector quantization,其具体定义为:将一个向量空间中的点用其中的一个有限子集来进行编码的过程。在矢量量化编码中,关键是码本的建立和码字搜索算法。比如常见的聚类算法,就是一种矢量量化方法。而在ANN近似最近邻搜索中,矢量量化方法又以乘积量化(PQ,Product Quantization)最为典型。其主要步骤为:先划分空间,再将子空间分别聚类,计算出查询向量的距离池,最后直接在距离池中查询出子空间向量所对应的距离进行加和再排序。虽然相对于brute force搜索速度更快,但还是对所有数据都进行了查找。倒排PQ乘积量化(IVFPQ)是PQ乘积量化的更进一步加速版。采用的是通过聚类的方式实现感兴趣区域的快速定位,具体是在PQ乘积量化之前,增加了一个粗量化过程:得到了聚类中心后,针对每一个样本找到其距离最近的类中心后,两者相减得到样本的残差向量,后面剩下的过程,就是针对残差向量的PQ乘积量化过程。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910137102.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top