[发明专利]一种类别不平衡样本的处理方法和系统在审
申请号: | 202210176003.5 | 申请日: | 2022-02-25 |
公开(公告)号: | CN114418034A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 任园园;赵兰;郑雪莲;李显生;崔晓彤 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 洪秀凤 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 类别 不平衡 样本 处理 方法 系统 | ||
1.一种类别不平衡样本的处理方法,其特征在于,包括以下步骤:
获取原始样本,所述原始样本包括原始多数类样本和原始少数类样本;
对所述原始样本的样本特征进行分析,根据分析结果确定代表特征;
基于所述代表特征,确定所述原始多数类样本的类内离群点,删除所述原始多数类样本中的类内离群点,得到目的多数类样本;
和/或,基于所述代表特征,确定所述原始少数类样本的核心种子簇,基于所述核心种子簇对所述原始少数类样本过采样,得到目的少数类样本;
基于所述目的多数类样本和/或目的少数类样本,生成均衡样本。
2.根据权利要求1所述的处理方法,其特征在于,对所述原始样本的样本特征进行分析,确定代表特征,包括以下步骤:
对样本特征采用基尼系数法进行重要度分析,选取重要度高的样本特征;
对样本特征采用皮尔逊相关系数法进行相关性分析,删除冗余特征;
根据重要度分析和相关性分析的结果,确定代表特征。
3.根据权利要求1所述的处理方法,其特征在于,基于所述代表特征,确定所述原始多数类样本的类内离群点,删除所述原始多数类样本中的类内离群点,得到目的多数类样本,包括以下步骤:
S1、将所述原始多数类样本记为样本C0,基于所述代表特征,计算所述样本C0的类内紧密性系数值CP0;基于所述样本C0得到样本C’,使得C’=C0;
S2、基于所述代表特征,计算所述样本C’中各样本点与类中心的欧氏距离,移除样本C’中与类中心的欧氏距离最大的样本点,更新样本C’;
S3、基于所述代表特征,计算样本C’的类内紧密性系数值CPi’;
S4、重复步骤S2-S3直至i’=n0-n’,得到紧密性改变量序列D-CP={△CP1,△CP2,…△CPi’},当i’=1时,△CPi’=CPi’-CP0,当i’>1时,△CPi'=CPi'-CPi'-1;
其中,i’为步骤S2-S3的执行次数,n0为样本C0中的样本点个数,n’为预设值,△CP1、△CP2、…△CPi’分别为每次执行步骤S2-S3后得到的紧密性改变量;
S5、对所述紧密性改变量序列D-CP进行曲线拟合,基于曲线拟合的结果确定所述原始多数类样本的类内离群点,删除所述原始多数类样本中的类内离群点,得到目的多数类样本。
4.根据权利要求3所述的处理方法,其特征在于,所述类内紧密性系数值是指类内各样本点到其类中心的平均距离,具体计算公式为:其中,CPi代表类i的紧密性系数值,Ωi表示类i中总的样本点数,xi表示类i中的样本点,ωi表示类中心。
5.根据权利要求1所述的处理方法,其特征在于,基于所述代表特征,确定所述原始少数类样本的核心种子簇,基于所述核心种子簇对所述原始少数类样本过采样,得到目的少数类样本,包括以下步骤:
基于所述代表特征,采用k-means聚类算法将所述原始少数类样本划分为若干种子簇;
计算所述种子簇与其他类样本的分离度,基于所述分离度,从若干所述种子簇筛选出一个或多个作为所述原始少数类样本的核心种子簇;其中,其他类样本是指除该种子簇所在的原始少数类样本以外的其他类样本;
通过smote算法对所述核心种子簇进行过采样,将过采样得到的新的样本点加入到原始少数类样本中,得到目的少数类样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210176003.5/1.html,转载请声明来源钻瓜专利网。