[发明专利]一种基于聚类和边界点的不平衡数据处理方法在审
申请号: | 202011463010.0 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112633337A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 姜诚;杨海波;张爽 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 边界 不平衡 数据处理 方法 | ||
1.一种基于聚类和边界点的不平衡数据处理方法,该方法包括以下步骤:
(1)设原始不平衡数据集中少数样本数目为D多数样本数目为N,根据少数类和多数类样本数目,计算不平衡数据需要新生成的少数类样本总数Q;
(2)利用DBSCAN聚类方法对少数类样本进行聚类,找出聚类簇中少数较少的点,以此作为样本噪声点删除,形成G个类;
(3)对于任意少数类样本mi,基于KNN方法找到最近邻的K个样本,计算少数类样本到K个样本的距离和D1,相加求K近邻距离平均值di,以距离di为半径,统计半径区域少数类样本中多数类个数,相加并进行归一化处理,得到每个边界区域少数类样本的权重wi1,少数类样本mi的权重wi1之和为1;以每个簇为中心,计算每个聚类中心xi到聚类簇中所有样本的距离D,然后得到与样本个数的比值,得到平均距离D2,求和相加所有平均距离得到Z,进行归一化处理,并将每个距离D2的倒数与距离Z的倒数求比值,得到每个聚类簇权重wi2,每个聚类簇的权重wi2之和为1;
(4)对于边界区域样本和每个聚类簇心,利用SMOTE合成算法得到新生成的少数类样本,将新生成的少数类样本点加入到原有的不平衡训练集中;
(5)对新生成的平衡训练集运用随机森林分类算法对本发明提出的采样方法进行测试和评价,并与SMOTE、K-SMOTE和不使用的经典SVM等过采样方法进行对比。
2.根据权利要求所述的一种基于聚类和边界点的不平衡数据处理方法,其特征在于,步骤(1)中需要新生成的少数类样本Q=I*(N-D),其中I是要合成的不平衡比,本发明取值为1。
3.根据权利要求所述的一种基于聚类和边界点的不平衡数据处理方法,其特征在于,步骤(2)中输入少数类样本数据集D,给定点在邻域内成为核心对象的最小邻域点数:MinPts,邻域半径:Eps;聚类后将簇类中数目个数少于两个样本的簇删除;最后得到去除噪声点的少数类样本M,样本形成n个类簇(C1,C2,……,CG)。
4.根据权利要求所述的一种基于聚类和边界点的不平衡数据处理方法,其特征在于,步骤(3)中K近邻距离平均值di:
得到每个少数类样本mi权重miw计算:
样本的距离和D的计算公式为:
每个聚类簇的权重wi2:
用上述计算方法得到每个聚类簇的采样权重。
5.根据权利要求所述的一种基于聚类和边界点的不平衡数据处理方法,其特征在于,步骤(4)中对于边界区域样本和每个聚类簇,分别合成数目为0.7Q和0.3Q;SMOTE合成算法是在xi的k个少数类邻居中随机选择N个,并根据以下公式生成新样本xd:
xd=xi+rand(0,1)*(yj-xi)
其中,g=1,2,…,N.j=1,…,k.rand(0,1)表示0到1之间的随机数。
6.根据权利要求所述的一种基于聚类和边界点的不平衡数据处理方法,其特征在于,步骤(5)中生成的平衡训练集和原始数据集合并Q,运用随机森林分类算法,为了更好的评价各种方法的性能,本发明采用五折交叉检验法在6组数据集上实验,每次选择其中4组作为训练集,1组作为测试集,同时用F-value和G-mean和ROC曲线作为评价指标进行对比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011463010.0/1.html,转载请声明来源钻瓜专利网。