[发明专利]一种基于主动学习的高光谱图像分类方法有效

申请号：	201410066856.9	申请日：	2014-02-26
公开（公告）号：	CN103839078B	公开（公告）日：	2017-10-27
发明（设计）人：	王爽;焦李成;吴林生;侯彪;马文萍;马晶晶;牛东	申请（专利权）人：	西安电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	西安智萃知识产权代理有限公司61221	代理人：	李东京
地址：	710071 陕西省***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于主动学习光谱图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于图像处理领域，特别是一种基于主动学习的高光谱图像分类方法，可应用于目标识别。

背景技术

伴随着遥感技术的不断进步，遥感传感器能够提供越来越多的数据。如何处理这些数据在遥感领域已经产生了巨大的兴趣。在遥感应用方面，例如环境检测、农业管理和城市绘图等，地物分类是非常重要的。利用这些数据所包含的丰富信息来获得高的分类精度，对于我们来说是一个巨大的挑战。特别地，在高光谱数据中光谱信息是极其的丰富。一幅高光谱图像也许包含有上百万个像素，每一个像素包括成百上千个光谱带，这使得人工标记变得很困难。因此，自动地物分类与识别正在成为一个热点。

许多关于遥感图像的自动分类技术的研究均是建立在监督学习方法的基础之上。监督学习的含义为：在已标记数据集上训练得到一个分类器，然后该分类器被用来预测未标记样本的标记。在机器学习领域，大量的分类器已经被开发出来。但是，监督学习器的分类性能依赖于可得到的已标记样本的数目与质量。已标记数据集的大小和一个分类器的分类精度之间通常是正相关的。换句话说，为了得到高的分类精度，已标记样本的数目应该尽可能的大。然而，对于高光谱数据，由于维数通常很高，该问题显得更加严重。当训练样本的数目对特征的数目的比率较小时，也许会发生维数灾难。因此，对于高光谱数据来说，很容易就发生过拟合训练数据的现象，这给分类器的泛化能力带来了不利的影响。

在现实生活中，要获得遥感数据的标记是非常昂贵并耗时的，因为需要专家人为标记或者实地勘察。因此，如何利用尽可能少的已标记样本来获得尽可能高的分类精度在遥感数据分类中起着非常重要的作用。主动学习刚好就是被设计用来强调这类问题。主动学习的目地在于挑选出最具有信息量的未标记样本用于人工标记，这样一个分类器就能够利用尽可能少的已标记样本来获得尽可能高的分类精度。说的更具体一点，在已标记数据集上训练得到一个分类器，该分类器被用来预测未标记样本的标记。基于预先定义的查询策略，获得了每一个未标记样本的信息量。根据信息量的排序挑选出固定数目的最高信息量的样本。分析人员人工地标记这部分最高信息量的样本，该分类器在扩大的已标记数据集上重新训练。该过程重复进行直到一些停止条件被满足。这个过程中最重要的一步是如何度量未标记样本的信息量。如果使用更好的度量方法就能够期待获得更好的分类性能。在机器学习领域中，有关主动学习技术的研究有很多。近些年，主动学习在遥感领域已经引起了极大的兴趣。

查询策略在主动学习中非常重要，基于集成的查询是其中一种查询策略之一，它根据集成的不一致性程度来评估未标记样本的信息量，如下所示：

上式中，x_u为未标记样本，y_i取遍所有的可能的标记，v(y_i)为所有那些预测得到的类别标记是y_i的分类器的数目，m为集成大小。

然而，通过该查询策略所获得的信息量也许重复，这就导致了一些未标记样本拥有同样的信息量并且将被随机挑出。这给分类性能的提高带来了不利的影响。在本发明中，提供了一种基于主动学习的高光谱图像分类方法用来处理这个问题。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于主动学习的高光谱图像分类方法，旨在降低信息量的重复程度来获得它们的一个更精确的排序，从而提高高光谱图像的分类精度。

实现本发明目的的技术方案是：一种基于主动学习的高光谱图像分类方法，其特征在于：包括如下步骤：

(1)对高光谱图像的每一个样本即像素，提取谱特征与空间特征，将这些特征融合为一个特征向量；

(2)将所有样本随机划分为测试数据集与训练数据集，训练数据集被进一步随机划分为已标记数据集和未标记数据集；

(3)在已标记数据集上构造初始集成分类器；

(4)每一次迭代，根据新的信息量度量准则挑选出固定数目的最高信息量的未标记样本用于人工标记；

(5)利用最终得到的集成分类器进行预测。

所述步骤1)是按以下步骤进行的：