[发明专利]基于视觉词典的图像分类方法有效

申请号：	201110175101.9	申请日：	2011-06-27
公开（公告）号：	CN102208038A	公开（公告）日：	2011-10-05
发明（设计）人：	覃征;纪磊;李环	申请（专利权）人：	清华大学;东莞理工学院
主分类号：	G06K9/66	分类号：	G06K9/66
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王莹
地址：	100084 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于视觉词典图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数字图像处理技术领域，特别涉及一种基于视觉词典的图像分类方法。

背景技术

图像分类是对图像中的目标判定类别，从而将图像进行归类。目前，图像分类技术已经成为了人工智能和模式识别中的重要研究方向，在军事目标识别、遥感和医学图像识别、OCR、生物特征识别、票据识别、智能交通等领域中得到了应用。

从技术上来说，基于内容的图像分类主要是利用图像的低层局部特征和高层语义特征，建立基于特征的向量表示，从而将其转化为人工智能领域的监督学习问题。在实际使用中，图像分类的难点在于目标由于不同程度的遮挡、观察视角不同、光照条件变化、仿射变换以及同类目标之间的差异性，造成分类失败。

目前，基于局部区域特征提取算子(如：Harris-Affine、MSER、SIFT等)的图像分类识别方法在仿射变换、光照变化、遮挡等条件下都被证明可以取得较好的分类效果。该方法从图像中抽取局部关键区域，并用仿射不变性描述算子建立这些区域的特征向量，然后通过向量矢量化方法建立视觉词典(Visual Code Book)，并将图像用基于该视觉词典的频率直方图表示，最终建立分类模型实现对目标识别。常用的向量矢量化方法是k-means(一种硬聚类算法)，但该算法一般假设数据集是一个混合正态分布，在迭代过程中容易在样本点分布密集的地方陷入局部极值，而且还必须事先确定聚类个数，初始点不同可能结果也不一样，一个远离中心点的样本点可能会使中心点产生较大偏离，而且计算复杂度较高，在实际使用中无法得到最具区分度的视觉词典。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何得到最具区分度的视觉词典，并根据该视觉词典进行图像分类。

(二)技术方案

为解决上述技术问题，本发明提供了一种基于视觉词典的图像分类方法，包括以下步骤：

S1：抽取训练图像数据集的联合局部特征；

S2：通过基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化，从而选择聚类中心个数，以形成视觉词典；

S3：根据所述视觉词典生成图像的特征表示，以建立图像分类器；

S4：根据所述图像分类器分类所述训练图像数据集中的图像。

其中，所述步骤S1具体包括：

S1.1：利用Harris-Affine算子或提取训练图像数据集的局部区域集合H＝{h}；

S1.2：利用MSER算子提取训练图像数据集的局部区域集合E＝{e}；