[发明专利]一种类别不平衡样本的处理方法和系统在审
申请号: | 202210176003.5 | 申请日: | 2022-02-25 |
公开(公告)号: | CN114418034A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 任园园;赵兰;郑雪莲;李显生;崔晓彤 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 洪秀凤 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 类别 不平衡 样本 处理 方法 系统 | ||
本发明公开了一种类别不平衡样本的处理方法和系统,包括以下步骤:获取原始样本,所述原始样本包括原始多数类样本和原始少数类样本;对所述原始样本的样本特征进行分析,根据分析结果确定代表特征;基于所述代表特征,确定所述原始多数类样本的类内离群点,删除所述原始多数类样本中的类内离群点,得到目的多数类样本;和/或,基于所述代表特征,确定所述原始少数类样本的核心种子簇,基于所述核心种子簇对所述原始少数类样本过采样,得到目的少数类样本;基于所述目的多数类样本和/或目的少数类样本,生成均衡样本。本发明类别不平衡样本的处理方法,可缓解重要信息损失、合成样本重叠、过拟合等现象。
技术领域
本发明属于数据处理技术领域,具体地涉及一种类别不平衡样本的处理方法和系统。
背景技术
类别不平衡样本是指各类别样本的数量差异较大,少数类样本数量远小于多数类样本,如果不对原始样本进行均衡处理,不利于少数类样本的识别与区分,但是,在大多领域,稀有案例的识别与区分研究价值又较大,因此,对于类别不平衡样本的处理是必不可少的关键步骤。
目前对类别不平衡样本的处理采用的方法是对多数类样本欠采样、对少数类样本过采样或者将两者结合进行重采样。但是现有的多数类样本欠采样方法大多为随机欠采样,容易出现重要信息损失的现象;现有的少数类过采样方法也多为基于所有样本点直接生成新的样本点,容易加重多类别间样本的重叠,不利于类别区分,降低分类效果,也易导致分类器的过拟合现象。因此,由于上述缺陷的存在,现有的处理方法均会对于样本的后续分析以及应用带来诸多不良影响。
而且,现有的类别不平衡样本的处理方法主要针对二分类算法,较少有面向多分类的不平衡样本。一方面,多类不平衡问题中,类别分布更加多样化,多个类别之间的样本数量差距较大,不平衡情况更加复杂;另一方面,每个类别样本的分类边界更加模糊,类间重叠情况更加严重,比如,在二类不平衡数据集中,类边界处的小类样本仅被另一个类围绕,而在多类不平衡问题中,这些小类样本很可能同时被其他几个类包围。因此,使用现有的类别不平衡样本的处理方法对多分类的不平衡样本进行处理时,上述现象更为严重。
发明内容
针对上述问题,本发明设计了一种类别不平衡样本的处理方法及系统,可有效缓解重要信息损失、合成样本重叠、过拟合等现象,最终得到的均衡样本更加合理有效,应用效果更好,而且该处理方法尤其适于面向多分类的类别不平衡样本,应用范围更广。
本发明提供了一种类别不平衡样本的处理方法,包括以下步骤:获取原始样本,所述原始样本包括原始多数类样本和原始少数类样本;对所述原始样本的样本特征进行分析,根据分析结果确定代表特征;基于所述代表特征,确定所述原始多数类样本的类内离群点,删除所述原始多数类样本中的类内离群点,得到目的多数类样本;和/或,基于所述代表特征,确定所述原始少数类样本的核心种子簇,基于所述核心种子簇对所述原始少数类样本过采样,得到目的少数类样本;基于所述目的多数类样本和/或目的少数类样本,生成均衡样本。
优选的,对所述原始样本的样本特征进行分析,确定代表特征,包括以下步骤:对样本特征采用基尼系数法进行重要度分析,选取重要度高的样本特征;对样本特征采用皮尔逊相关系数法进行相关性分析,删除冗余特征;根据重要度分析和相关性分析的结果,确定代表特征。具体的,计算各样本特征对应的基尼系数,根据基尼系数大小将样本特征进行重要度排序,保留重要度高的样本特征;采用皮尔逊相关系数法,分析各样本特征间的相关性,在相关性高的样本特征中选择一个保留。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210176003.5/2.html,转载请声明来源钻瓜专利网。