[发明专利]基于构造等边平衡三角形SMOTE算法的少数类样本生成方法有效
申请号: | 202110619809.2 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113379823B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 徐玲玲;迟东祥;支文俊;徐迁凤;黄彦乾 | 申请(专利权)人: | 上海电机学院 |
主分类号: | G06T7/60 | 分类号: | G06T7/60;G06T3/40;G06V10/77;G06K9/62 |
代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 孟旭彤 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 构造 等边 平衡 三角形 smote 算法 少数 样本 生成 方法 | ||
本发明公开了一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法,其包括:从数据集中获取少数类样本集S,确定参与生成少数类样本的最近邻样本的个数k,并确定距离阈值ε;计算少数类样本集S的均值向量μ0;计算各少数类样本与均值向量μ0的巴氏距离,获取巴氏距离最小的少数类样本Xj;搜寻少数类样本集S中其他少数类样本,将与少数类样本Xj的巴氏距离Bki小于距离阈值ε的少数类样本添加至待定参与少数类样本生成的样本集G;将样本集G中的各样本之间两两连线,以各连接线为边分别构造等边三角形,并以各等边三角形的中点为新生成的少数类样本。该方法能够更全面地利用多数类和少数类的样本空间,使生成的新样本所携带的信息更加丰富多元。
技术领域
本发明涉及计算机技术领域,具体涉及一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法。
背景技术
SMOTE过采样技术广泛运用于不平衡数据集以合成新少数类样本,该算法对少数类分析后进行过采样,其主要思想是取每一个少数类样本点x1,计算出该少数类样本点与剩余少数类样本的欧式距离,根据欧式距离最终选择出k个最近邻样本点,在x1与其k个最近邻样本点的连线中以0~1之间的采样倍率线性插值,从而产生新的合成数据(synthesized data),其合成原理如下公式:合成示意图如附图1。自从经典的SMOTE过采样技术被提出以来,衍生出一系列基于SMOTE变体的改进技术,这些改进技术大体上着眼于SMOTE最近邻的选取(Borderline-SMOTE)、对SMOTE线性插值的改进(TheImbalanced Triangle Synthetic Data Method)、以及非线性数据集的核映射(NKSMOTE)。
现有基于SMOTE的改进技术主要存在两点的不足:其一主要体现在对最近邻样本选取的时候往往都是采用最简单的欧式距离来度量两个样本点之间的距离,虽然欧式距离简单明了,能直观地描述了两个样本间的距离及他们与其他剩余样本间的差异,但是实际应用中采集到的数据集各个类别之间的样本的分布之间总是存在些许联系,单纯孤立地计算两个样本之间的欧式距离,再根据计算得出的数值进行大小的比较进而推断两个样本间的相似度并不能准确地表达出两个样本间的真实差异,因而以欧式距离选择出来的参与生成少数类样本的k个最近邻样本并不能很好的代表少数类这一类别;其二主要是SMOTE在对两个样本间合成新样本的时候采用的是线性插值的方式,线性插值合成的新样本往往只是利用了少数类样本间的信息,因而忽略了多数类中对分类结果造成影响的潜在有用信息。分类问题是综合了多个类别的样本信息而进行的处理分类任务,因此在合成新样本的时候不能单一地只考虑一类样本的信息。
综上所述,现有SMOTE过采样技术及其变体在合成新样本时普遍存在的未能综合考虑样本间的类分布结构、简单的计算样本间欧式距离后进行线性插值使得新合成的样本所包含的信息单一化、片面化、缺乏代表性,造成不平衡数据集分类的结果达不到预期效果的问题。
发明内容
本发明的目的是根据上述现有技术的不足之处,提供一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法,通过采用巴氏距离替代欧氏距离,并采用构造三角形的方式进行插值替代线性插值,解决了现有技术中存在的不足。
本发明目的实现由以下技术方案完成:
一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法,其包括:
(S1)从数据集中获取少数类样本集S,确定参与生成少数类样本的最近邻样本的个数k,并确定距离阈值ε;
(S2)计算少数类样本集S中各少数类样本的均值向量μ0;
(S3)计算少数类样本集S中各少数类样本与均值向量μ0的巴氏距离,获取巴氏距离最小的少数类样本Xj;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电机学院,未经上海电机学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110619809.2/2.html,转载请声明来源钻瓜专利网。