[发明专利]一种面向多分类的不平衡数据预处理方法、装置及设备在审
申请号: | 201810599969.3 | 申请日: | 2018-06-11 |
公开(公告)号: | CN109033148A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 韩伟红;李树栋;王乐;方滨兴;贾焰;黄子中;周斌;殷丽华;田志宏 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;宋静娜 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种面向多分类的不平衡数据预处理方法、装置、设备,方法包括:接收最终样本集大小及样例集的不平衡比,得出每个类别的理想样例个数;根据理想样例个数和实际样例个数判断少数类样例集和多数类样例集;对少数类样例集中的样例,计算k近邻中其他类样例和少数类样例的个数,以分类标记;对少数类样例集中的样例,根据样例的标记进行删除、保存、复制或合成,得到最终少数类样例集;对多数类样例集中的样例,计算k近邻中该多数类样例和其他类样例的个数,以分类标记;对多数类样例集中的样例,根据样例的标记进行删除或保存,得到最终多数类样例集;生成最终样本集。本发明使得最终样本集能有效提高多分类算法的准确性。 | ||
搜索关键词: | 最终样本 数据预处理 分类标记 删除 装置及设备 分类算法 个数判断 保存 分类 复制 合成 | ||
【主权项】:
1.一种面向多分类的不平衡数据预处理方法,其特征在于,包括如下步骤:读取原始样本集;其中,所述原始样本集包括至少两个类别的样例集;接收由用户输入的最终样本集大小以及各个样例集之间的不平衡比,以计算得出最终样本集中每个样例集中的理想样例个数;根据每个样例集的理想样例个数和实际样例个数判断该样例集属于少数类样例集还是多数类样例集;对每个少数类样例集中的样例,计算每个样例的k近邻中其他类样例和属于该少数类样例集中的样例的个数,以将每个样例划分为噪音样例、不稳定样例、边界样例或稳定样例并打上相应的标记;其中,其他类样例是指除该少数类样例集中的样例以外的其他样例集中的样例;对每个少数类样例集中的样例,根据每个样例的标记进行删除、保存、复制或者合成,以得到相应于每个少数类样例集的最终少数类样例集;对每个多数类样例集中的样例,计算每个样例的k近邻中属于该多数类样例集中的样例和其他类样例的个数,以将每个样例划分为噪音样例、边界样例或稳定样例,并打上相应的标记;对每个多数类样例集中的样例,根据每个样例的标记进行删除或保存,以得到相应于每个多数类样例集的最终多数类样例集;根据所述最终少数类样例集以及多数类样例集,生成最终样本集,以实现不平衡数据的预处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810599969.3/,转载请声明来源钻瓜专利网。