[发明专利]一种面向多分类的不平衡数据预处理方法、装置及设备在审
申请号: | 201810599969.3 | 申请日: | 2018-06-11 |
公开(公告)号: | CN109033148A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 韩伟红;李树栋;王乐;方滨兴;贾焰;黄子中;周斌;殷丽华;田志宏 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;宋静娜 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 最终样本 数据预处理 分类标记 删除 装置及设备 分类算法 个数判断 保存 分类 复制 合成 | ||
1.一种面向多分类的不平衡数据预处理方法,其特征在于,包括如下步骤:
读取原始样本集;其中,所述原始样本集包括至少两个类别的样例集;
接收由用户输入的最终样本集大小以及各个样例集之间的不平衡比,以计算得出最终样本集中每个样例集中的理想样例个数;
根据每个样例集的理想样例个数和实际样例个数判断该样例集属于少数类样例集还是多数类样例集;
对每个少数类样例集中的样例,计算每个样例的k近邻中其他类样例和属于该少数类样例集中的样例的个数,以将每个样例划分为噪音样例、不稳定样例、边界样例或稳定样例并打上相应的标记;其中,其他类样例是指除该少数类样例集中的样例以外的其他样例集中的样例;
对每个少数类样例集中的样例,根据每个样例的标记进行删除、保存、复制或者合成,以得到相应于每个少数类样例集的最终少数类样例集;
对每个多数类样例集中的样例,计算每个样例的k近邻中属于该多数类样例集中的样例和其他类样例的个数,以将每个样例划分为噪音样例、边界样例或稳定样例,并打上相应的标记;
对每个多数类样例集中的样例,根据每个样例的标记进行删除或保存,以得到相应于每个多数类样例集的最终多数类样例集;
根据所述最终少数类样例集以及多数类样例集,生成最终样本集,以实现不平衡数据的预处理。
2.根据权利要求1所述的面向多分类的不平衡数据预处理方法,其特征在于,所述根据每个样例集的理想样例个数和实际样例个数判断该样例集属于少数类样例集还是多数类样例集具体为:
对于每个样例集,若其理想样例个数大于实际样例个数,则判断该样例集为少数类样例集;若其理想样例个数小于等于实际样例个数,则判断该样例集为多数类样例集。
3.根据权利要求1所述的面向多分类的不平衡数据预处理方法,其特征在于,所述对每个少数类样例集中的样例,计算每个样例的k近邻中其他类样例和属于该少数类样例集中的样例的个数,以将每个样例划分为噪音样例、不稳定样例、边界样例或稳定样例并打上相应的标记,具体包括:
当判断少数类样例集中的样例的k近邻样例中绝大多数为其他类样例时,则标记该样例为噪音样例;
当判断少数类样例集中的样例的k近邻样例大多数为其他类样例时,则标记该样例为不稳定样例;
当判断少数类样例集中的样例的k近邻样例的其他类样例的个数与少数类样例集中的样例的个数接近时,则标记该样例为边界样例;
当判断少数类样例集中的样例的k近邻样例大多数为属于该少数类样例集中的样例时,则标记该样例为稳定样例。
4.根据权利要求3所述的面向多分类的不平衡数据预处理方法,其特征在于,所述对每个少数类样例集中的样例,根据每个样例的标记进行删除、保存、复制或者合成,以得到相应于每个少数类样例集的最终少数类样例集,具体为:
对每个少数类样例集中的样例:
删除该少数类样例集中的所有噪音样例;
把所有不稳定样例加入相应的最终少数类样例集;
对每个边界样例进行复制,复制个数为∣c-1∣,将该边界样例以及复制的样例一起加入相应的最终少数类样例集;其中,c为复制比,且c=(该少数类样例集的理想样例个数-不稳定样例个数)/(该少数类样例集的实际样例个数-噪音样例个数-不稳定样例个数);
对每个稳定样例,与周围样例合成新样例,合成个数为∣c-1∣,并将该样例以及新合成的样例一起加入相应的最终少数类样例集;其中,合成方法为每次从该稳定样例xi的k近邻中随机选择一个属于该少数类样例集中的样例xj,新合成的样例xi’=xi+(xi-xj)*a,a为0到1之间的随机数;
计算还需生成的属于该少数类样例集的样例个数d;其中,d=该少数类样例集的理想样例个数-最终少类样例集中的属于该少数类样例集的样例的当前个数;
随机选择d个稳定样例,每个稳定样例与周围样例合成一个新样例,将合成的新样例加入到相应的最终少数类样例集中;
获得相应于每个少数类样例集的最终少数类样例集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810599969.3/1.html,转载请声明来源钻瓜专利网。