[发明专利]基于集成间隔的多类不平衡遥感土地覆盖图像分类方法在审
申请号: | 202010499382.2 | 申请日: | 2020-06-04 |
公开(公告)号: | CN111680615A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 冯伟;童莹萍;全英汇;邢孟道;肖国尧;董淑仙;钟娴 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;黎汉华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集成 间隔 不平衡 遥感 土地 覆盖 图像 分类 方法 | ||
本发明公开了一种基于集成间隔的多类不平衡遥感土地覆盖图像分类方法,主要解决现有技术对不平衡图像分类精度低的问题。其实现方案是:获取不平衡训练样本,并使用随机森林分类算法对其进行预分类;统计预分类的不平衡训练样本投票数,建立基于投票表决的集成间隔模型;将不平衡训练样本按照样本数量和集成间隔值进行排序,保留最小类,其余类以欠采样率随机选择样本,构造新的平衡训练子集;将每个新的平衡训练子集输入到CART决策树,通过主要投票原则生成集成学习模型,得到不平衡遥感图像的最终分类结果。本发明能通过集成间隔模型有效减少分类时有用信息的丢失,且抗噪声能力强,训练速度快,可用于土地覆盖和环境监测。
技术领域
本发明属于遥感图像处理领域,尤其涉及多类不平衡的遥感分类方法,可用于土地覆盖和环境监测。
背景技术
不平衡分类问题是指训练样本在类别间分布不平衡的分类问题。现有解决不平衡数据分类问题的方法通常可分为数据层面的方法和算法层面的方法。其中:
数据层面的方法通常对原数据集进行重采样构建一个新的数据集,主要分为过采样和欠采样。过采样的方法是通过增加少数类训练样本的数量达到平衡数据集的效果。常用的过采样方法包括随机过采样和SOMTE算法。由于随机过采样的方法直接随机复制少数类样本,经常会造成过拟合现象的发生,而SOMTE算法合成新样本时,很容易引入噪声,影响最终的分类效果。这种过采样方法的不足是增加了算法的运算量,降低了算法的运行效率。欠采样的方法是通过舍弃部分大类的样本降低不平衡度。但这种随机删除大类中的样本容易引起信息丢失。
算法层面的方法,是通过改进传统的分类算法提高少数类样本的重要性,其主要有集成学习分类算法。该算法是目前广泛应用的分类算法,其用同一个基分类器学习不同的训练子集,使每个基分类器的分类模型各不相同。集成学习分类算法又包括Bagging算法和Boosting算法。Bagging算法是从训练样本中有放回地随机选取样本,构建训练子集。这种方法每个基分类器之间差异小,泛化能力弱。Boosting算法能根据上一个基分类器的分类结果决定下一次样本被选择的权重,但这种方法对噪声样本过分偏重,基分类器需要串行迭代,运行效率低。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于集成间隔的多类不平衡遥感土地覆盖图像分类方法,以减少样本有效信息的丢失,提高运行效率。
为达到上述目的,本发明的技术方案包括如下步骤:
(1)实地采集或从遥感图像训练库获取不平衡训练样本,并使用随机森林分类算法对其进行预分类;
(2)建立基于投票表决的集成间隔模型:
(2a)统计预分类后训练样本中真实类别y的投票数vy和其他各类别c的投票数vc;
(2b)统计其他各类别投票数vc之和∑vc,构建集成间隔模型:
其中,x为训练样本,margin(x)为训练样本的间隔值,L为样本的类别数,y为样本的真实类别,vy为真实类别的投票数,c为样本的其他类别,vc为其它类别的投票数;
(3)根据样本间隔值的大小对训练样本进行欠采样,生成新的平衡数据训练子集:
(3a)将每个类别i按照其样本数量Ni降序排列,将每个类别内的样本按照其间隔值升序排列;
(3b)保留最小类,其余类以欠采样率α随机选择样本,构造新的平衡训练子集,α的取值范围为0.1至1;
(4)将每个平衡训练子集输入到CART决策树,将这些决策树通过主要投票原则生成集成学习模型,得到不平衡遥感图像的最终分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010499382.2/2.html,转载请声明来源钻瓜专利网。