[发明专利]一种基于数据分区混合采样的不平衡集成分类方法在审
申请号: | 201911339988.3 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111091201A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 高欣;任昺;何杨;李康生;井潇;纪维佳;查森;王锋 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06N20/20 | 分类号: | G06N20/20;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 分区 混合 采样 不平衡 集成 分类 方法 | ||
本发明实施例提出了一种基于数据分区混合采样的不平衡集成分类方法,包括:根据少数类邻域中的多数类占比将样本空间划分为四个区域:多数类安全区、少数类安全区、边界区、少数类噪声区,根据每个少数类邻域的多数类占比与其总和的比值生成权值,据此确定每个少数类邻域的合成数目,以随机线性插值方式对边界区少数类进行过采样;对多数类安全区采用随机欠采样,剔除少数类噪声区样本但保留少数类安全区样本,生成平衡数据集;构建三种集成学习模型:偏向多数类的原始模型、局部域加强和削弱模型、偏向外围边界的混合模型,根据放入原始数据集的测试点近邻的不平衡程度,自适应地选择相应的模型。
【技术领域】
本发明涉及机器学习领域解决类别不平衡的分类方法,尤其涉及一种基于数据分区混合采样的不平衡集成分类方法。
【背景技术】
分类问题成为机器学习中的热点问题,在许多应用领域中承担着数据分析和预测的角色。对于类别不平衡,各类别的数据分布不均匀,一类或几类(少数类)样本包含少量数据而其他类(多数类)样本包含大量数据。如果给定类别不平衡的训练集,那么很难训练出有效的分类模型,这种问题称为不平衡分类问题。已经提出了许多方法解决这类问题,主要分为数据级方法、算法级方法以及数据处理与算法相结合的方法。数据层面主要包括对少数类进行过采样,对多数类进行欠采样,以及结合使用两种技术(混合采样)。过采样通过增加少数类样本进行数据平衡,在不平衡度较高的分类问题中少数类的预测准确率将会明显提升,但可能生成不正确和不必要的少数类,产生过拟合问题;欠采样通过减少多数类样本使数据达到平衡,可能丢失有用的样本信息;混合采样是一种过采样和欠采样相结合的方法,有助于提升模型的泛化能力并降低过拟合的可能。算法层面主要包括成本敏感学习、集成学习等,成本敏感学习通过最小贝叶斯风险准则确定成本函数,旨在最小化误分类成本。但是误分类成本的先前信息通常是不可用的,因此必须面对确定成本的困难。集成学习通过在每次迭代中突出显示错误分类的实例并组合来自若干弱分类器的加权分类结果,能够提高分类器的泛化能力和预测精度,是解决不平衡分类问题的有效方法。近年来,越来越多的学者提出采样方法与集成学习相结合的方法,以获得更强大的分类器集合,这些方法在不平衡分类问题中具有较好的表现,但是这些方法没有充分考虑样本空间的数据分布,无法通过不同区域采用不同分类器使分类性能得到提升,而且采用简单的静态策略选择模型,对测试对象无分别地进行预测,降低了模型的适用性。
【发明内容】
有鉴于此,本发明实施例提出了一种基于数据分区混合采样的不平衡集成分类方法,可以有效解决正负样本不平衡的分类问题,通过调整数据分布生成不同分类模型以改善不平衡问题中的分类性能,提高分类模型的综合性能。
本发明实施例提出的一种基于数据分区混合采样的不平衡集成分类方法,包括:
根据少数类邻域中的多数类占比将样本空间划分为四个区域:多数类安全区、少数类安全区、边界区、少数类噪声区,根据每个少数类邻域的多数类占比与其总和的比值生成权值,据此确定每个少数类邻域的合成数目,以随机线性插值方式对边界区少数类进行过采样;
对多数类安全区采用随机欠采样,剔除少数类噪声区样本但保留少数类安全区样本,生成平衡数据集;
构建三种集成学习模型:偏向多数类的原始模型、局部域加强和削弱模型、偏向外围边界的混合模型,根据放入原始数据集的测试点近邻的不平衡程度,自适应地选择相应的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911339988.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置