[发明专利]一种对非平衡数据集的分类方法及系统有效
申请号: | 201811061152.7 | 申请日: | 2018-09-12 |
公开(公告)号: | CN109165694B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 张雪英;李凤莲;陈桂军;张波;魏鑫;焦江丽 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 程华 |
地址: | 030000 *** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 平衡 数据 分类 方法 系统 | ||
本发明的对非平衡数据集的分类方法及系统,计算获得正类和负类训练集的类中心c1和c2,确定两类类中心的距离T、正类超平面、负类超平面、第一距离、第二距离、第三距离和第四距离,进而确定模糊隶属度函数,根据模糊隶属度函数及模糊双支持向量机确定分类模型。采用网格搜索算法和交叉验证法得到优化后的分类模型。将待分类的非平衡数据输入优化后的分类模型,得到对待分类的非平衡数据的分类结果。本发明的方法或系统通过使用基于模糊隶属度函数的确定分类模型,根据样本点对分类超平面贡献的不同和两类样本非平衡率的不同赋予样本点不同的隶属度值,减轻了样本间的不平衡性,从而提高了使用本发明的方法或系统时的分类结果的准确性。
技术领域
本发明涉及非平衡数据处理技术领域,尤其涉及一种对非平衡数据集的分类方法及系统。
背景技术
许多行业数据往往存在着数据分布不平衡现象。以二分类问题为例,其中一种样本所占的比例如果远远大于另一种样本所占的比例,则该数据集为非平衡数据集。其中,多数类样本也称为负类样本,少数类样本称为正类样本,负类样本与正类样本数之比称为不平衡率(IR,Imbalanced Rate)。典型例子包括:故障诊断数据、信用欺诈数据、医疗诊断数据等。由于对非平衡数据集进行分类预测时,少数类的分类预测准确率在实际中的参考价值更重要,但常用的分类预测模型通常对多数类的预测准确率更高,少数类的预测准确率偏低,而少数类的预测错误通常会带来更大的经济损失,甚至带来生命代价,如信用卡盗刷事故、煤矿突水及瓦斯突出事故等。因此,如何提高非平衡数据集少数类的分类预测准确率是近年来国内外的研究热点。
Batuwita等人提出一种用于处理非平衡数据集的模糊支持向量机(即FSVM),为正负样本设置了不同的惩罚因子,设计模糊隶属度函数赋予训练样本不同的隶属度,但这种设计模糊隶属度函数方法仅仅考虑了样本与类中心的距离和样本非平衡性的情况,并没有考虑样本的分布特性,分类准确性差。蔡艳艳等人提出了新型双隶属度模糊支持向量机,有效提高了分类准确率,但也增加了复杂度,分类效率较低。
发明内容
本发明的目的是提供一种对非平衡数据集的分类方法及系统,以解决现有技术中对非平衡数据集进行分类时效率低及准确性差的问题。
为实现上述目的,本发明提供了如下方案:
一种对非平衡数据集的分类方法,包括:
获取样本非平衡数据;所述样本非平衡数据包括正类数据和负类数据;所述正类数据表示所述样本非平衡数据中数量较少的一类数据,所述负类数据表示所述样本非平衡数据中数量较多的一类数据;
对样本非平衡数据进行随机划分得到训练集和测试集;所述训练集包括正类训练集和负类训练集;所述测试集包括正类测试集和负类测试集;
获取所述正类训练集的类中心c1和所述负类训练集的类中心c2以及所述训练集的中心c;
将所述类中心c1与所述训练集的中心c之差确定为正类超平面法向量w1,将所述类中心c2与所述训练集的中心c之差确定为负类超平面法向量w2,将所述类中心c1与所述类中心c2之差的模确定为两类类中心的距离T;
根据所述类中心c1、所述类中心c2、所述法向量w1和所述法向量w2确定经过所述类中心c1的正类超平面和经过所述类中心c2的负类超平面;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811061152.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置