[发明专利]一种边界合成、混合采样、异常检测算法及数据分类方法在审
申请号: | 202010012834.X | 申请日: | 2020-01-07 |
公开(公告)号: | CN111259924A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 张丽翠;王茹雪;王鹏程;王剑镁;张春霞;刘淑岐 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京君泊知识产权代理有限公司 11496 | 代理人: | 李丹 |
地址: | 130000 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 边界 合成 混合 采样 异常 检测 算法 数据 分类 方法 | ||
本发明公开了一种边界合成算法,涉及不平衡数据的分类技术领域,包括以下步骤:设原始训练数据集为D,正类样本集为P,正类样本数目为pnum,负类样本集为N;步骤一,通过BSMOTE算法将正类样本集为P分成噪声样本集、边界样本集和安全样本集;步骤二,在给定过采样率ratio的情况下,训练数据集需合成新样本的数量G得以确定,为每个正类边界样本赋予采样权值ωj,由ωj与G得到每一个正类边界样本应合成新样本的数目gj;步骤三,将步骤二所得的gj个新样本与噪声样本集、安全样本集和负类样本集共同组成平衡的训练数据集,本发明的有益效果是:提高了分类器对不平衡数据的分类效果。
技术领域
本发明涉及不平衡数据的分类技术领域,具体是一种边界合成、混合采样、 异常检测算法及数据分类方法。
背景技术
分类是数据挖掘和机器学习中重要的知识获取手段之一,经典的分类算 法通常是基于数据集平衡这一假设而提出的,而在实际应用中,许多数据集是 不平衡的,并且少数类数据有时更重要,将其错分要付出更大的代价,如信用 卡欺诈检测、医疗诊断、垃圾邮件判别等。因此,以总体分类精度为学习目标 的传统分类算法并不适用于不平衡数据的分类,研究如何提高分类器对不平衡 数据的分类效果有着重要的意义。
近年来,许多学者在多个领域如文本分类、欺诈检测、故障诊断、无线传 感器入侵检测、医疗诊断、推荐系统中根据用户点击进行分析等方面研究了不 平衡数据的分类问题。目前,主要有两个方法去解决这一问题,第一种方法是 从数据的角度出发,对原始的训练数据进行重采样,使数据分布较为平衡;第 二种是从分类算法的角度出发,考虑分类器对不平衡数据分类的缺陷和误分类 的代价对分类算法进行改进,使得新的分类算法可以在不平衡数据集上取得较 好的分类效果。
重采样技术分为欠采样(Under Sampling)和过采样(Over Sampling)。 欠采样通过筛选多数类数据来平衡数据集,最简单的欠采样方法是随机欠采样 RUS(Random UnderSampling),RUS从原始多数类数据集中随机筛选数据,使 整体数据集较为平衡,但这种方式可能删除一些有代表性的多数类数据,使分 类器无法完整的学习数据中隐含的规则。为了克服RUS的这一缺点,很多学者 进而提出其它的欠采样方法,如Tomek Links算法,邻域清理法NCL (Neighborhood Cleaning)算法,最近邻规则欠采样ENN(Edited NearestNeighbor)算法,基于KNN算法的KNN欠采样算法等。另外也有学者提出利用 聚类算法对多数类样本进行聚类,按比例抽取多数类样本,使新的数据集与原 数据集有相似的样本分布。孟晓龙则是通过使用逻辑回归算法对多数类样本进 行预测,并按概率抽取样本。
与欠采样相似,最简单的过采样方法是随机过采样ROS(Random Over Sampling),ROS通过复制少数类样本使原始数据集较为平衡,但这种方法可能 会导致过拟合。Chawla等人提出的SMOTE算法通过分析少数类样本特征空间, 生成与少数类样本相似的样本来使数据集平衡。BSMOTE算法则是寻找处于不同 类别数据的边界数据,进而对少数类边界数据过采样。杨毅等人提出了精化边 界的SMOTE算法,其根据边界样本的分布,对少数类样本设置不同的过采样倍 率。为了减少SMOTE算法在合成少数类样本的随机性,也有学者提出了SMOTE-D 算法。还有学者提出对不同的少数类样本寻找适合的K值进行新的数据合成。 而C_SMOTE算法则是不需要定义SMOTE算法的K值,而是围绕少数类样本的重 心合成新的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010012834.X/2.html,转载请声明来源钻瓜专利网。