[发明专利]一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核在审
申请号: | 201510035277.2 | 申请日: | 2015-01-23 |
公开(公告)号: | CN104657742A | 公开(公告)日: | 2015-05-27 |
发明(设计)人: | 王峰;秦督 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海麦其知识产权代理事务所(普通合伙) 31257 | 代理人: | 董红曼 |
地址: | 200062 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 嵌入 图像 概念 检测 方法 及其 | ||
技术领域
本发明属于图像概念检测技术领域,尤其涉及一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核。
背景技术
概念检测作为基于内容的图像检索最基本的一步,在过去几年里已经进行了深入的研究,并且提出了许多有效的方法和特征。对于分类器,SVM(支持向量机)已经被广泛地应用。为了提升SVM的性能,一个能够准确地描述图像样本之间距离的方法起着关键的作用。
在表示图像的各种特征中,视觉词袋特征(Bag-of-Visual-Words,BoW)由于其高效性以及利用图像局部信息区分不同概念的能力,取得了巨大的成功。在典型的BoW特征提取过程中,首先检测图像的局部兴趣点(也称作关键点),并用一个128维的尺度不变特征变换(Scale-Invariant Feature Transformation,SIFT)描述符描述关键点的描述符。这些关键点然后根据其SIFT描述符被聚类为不同的视觉单词,从而构建视觉词典。最后,对每个图像,通过映射其中每个关键点到其最相似的视觉单词,并统计每个单词对应的关键点的数量,生成该图像在视觉词典上的直方图,也即BoW特征用于表示图像内容。在SVM分类过程中,BoW特征用于计算不同图像之间的距离,进而将含有不同概念的图像进行区分。
在构建视觉词典的过程中,对SIFT描述符的聚类相当于把对应的128维空间分割为不同的泰森分区(Voronoi cell),其中每个分区对应一个视觉单词。对给定图像,通过统计分配到每个分区的关键点数量从而生成BoW特征。这种方法只是简单地认为落在一个分区的所有点都是相同的,这样会导致不同图像样本之间的距离度量不是很准确。参阅图3a,在三个图像(I1,I2和I3)中,从每个图像得到四个点映射到相同的视觉单词(或者说在同一个泰森分区中)。根据传统BoW方法,因为只是对每个分区中的关键点计数,所以三个图像被认为是相同的,它们之间的距离全部为0。但在给定的分区中,I1和I3之间的距离很显然要比I1和I2之间的距离要大。BoW模型并没有考虑这个差异,它假设同一分区中的所有点都是相同的。这是因为关键点SIFT描述符的详细信息在映射到视觉单词的过程中被丢失。典型地,通过分割128维SIFT描述符空间至200到5000个分区中生成视觉词典和BoW特征,因此每一个分区的尺寸都会非常大,映射到相同视觉单词的点之间的差异也会非常大。由于忽略了这些差异,BoW方法在很大程度上丢失了SIFT描述符的区分能力,导致对不同图像样本之间的距离估计精确度大幅降低,从而最终会影响分类器的性能。
为了克服现有技术的上述缺陷,本发明提出了一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核。
发明内容
本发明提出了一种基于汉明嵌入核的图像概念检测方法,包括如下步骤:
a.提取两幅以上训练图像的局部兴趣点,利用尺度不变特征描述符来描述所述局部兴趣点的视觉信息,根据所述描述符利用k-means算法将所有局部兴趣点进行聚类获得多个类;构建视觉词典,所述视觉词典中的每个视觉单词对应于一个类或者尺度不变特征空间中的一个泰森分区;
b.对每一幅图像,根据所述描述符将所述局部兴趣点分配至不同的视觉单词或泰森分区,统计分配到每个视觉单词的局部兴趣点的数量,形成所述图像的视觉词袋特征;
c.生成每个局部兴趣点的二进制签名,对汉明嵌入核进行离线训练;
d.依据步骤b和步骤c建立两幅以上待检测图像的局部兴趣点的二进制签名;
e.对于同一个泰森分区中的局部兴趣点,计算两个局部兴趣点的二进制签名之间的汉明距离,作为所述局部兴趣点之间的距离;
f.对于同一个泰森分区内不同待检测图像的局部兴趣点集,根据所述汉明距离计算所述局部兴趣点集中任意局部兴趣点之间的欧式距离;
g.依据所述欧氏距离,利用Hungarian算法寻找所述局部兴趣点集之间的最优匹配,计算所述局部兴趣点集之间的距离;
h.基于所述距离计和所述局部兴趣点集之间的距离生成汉明嵌入核,所述汉明嵌入核以如下公式表示:其中,σ是表示一个自由参数,s表示视觉词典的大小,c表示一个视觉单词,Ip和Iq分别表示两个图像,表示图像Ip和Iq中分配到视觉单词c上的局部兴趣点集之间的距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学;,未经华东师范大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510035277.2/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序