[发明专利]一种基于谱聚类的过采样方法在审
申请号: | 202011462702.3 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112418352A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 张爽;李媛洁;纪耀立 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 谱聚类 采样 方法 | ||
1.一种基于谱聚类的过采样方法,其特征在于,包括以下步骤:
步骤1:对不平衡数据集作为输入,区分出少数类样本和多数类样本,计算原始数据的不平衡比;
步骤2:将不平衡数据集利用谱聚类,划分为多个簇;
步骤3:根据簇内有无多数类或少数类筛选出边界簇和安全簇,并且根据各类簇所占比例确定簇的选择权重;
步骤4:对于边界簇,根据簇内的不平衡比分别进行过采样;
步骤5:对于安全簇,根据密度分别进行过采样;
步骤6:重复步骤3-5直至生成数据个数等于所需数据,并将生成的数据集添加到原始数据集中,构造成新的数据集。
2.根据权利要求1所述的基于谱聚类的过采样方法,其特征在于,所述步骤2中,将不平衡数据集利用谱聚类,划分为多个簇,具体步骤如下:
步骤2.1 利用KNN算法遍历所有的样本点,取每个样本最近的K个样本点作为近邻,计算样本点与其所对应的近邻样本之间之间的高斯距离,并通过两个样本点之间高斯距离构造相似矩阵A;
步骤2.2 通过相似矩阵A构造度矩阵D;
步骤2.3 根据相似矩阵A和度矩阵D,构造拉普拉斯矩阵L;
步骤2.4 计算拉普拉斯矩阵L所对应的特征值,找出最小的k个特征值和特征值所对应的特征向量;
步骤2.5 通过各个特征向量作为列向量构造特征矩阵R,其中R为n行k列矩阵;
步骤2.6 将n行当作n个样本点,采用k-means方法进行聚类,得到所需簇。
3.根据权利要求1所述的基于谱聚类的过采样方法,其特征在于,所述步骤3中,根据簇内有无多数类或少数类筛选出边界簇和安全簇,并且根据各类簇所占比例确定簇的选择权重,具体步骤为:
步骤3.1 将只含有多数类样本的簇定义为危险簇,只含有少数类样本的簇定义为安全簇,其余簇定义为边界簇;
步骤3.2 计算边界簇以及安全簇分别占有对应两种簇的比例。
4.根据权利要求1所述的基于谱聚类的过采样方法,其特征在于,所述步骤4中,对于边界簇,根据簇内的不平衡比分别进行过采样,具体步骤为:
步骤4.1 计算各个边界簇计算簇内的多数类与少数类的不平衡比率
步骤4.2 根据各个簇的不平衡比率IRC,进行归一化确定边界簇中簇的选择概率
步骤4.3 在选择好的簇中随机选择簇内两个少数类样本点,在各个维度中线性随机插值构造新的样本点。
5.根据权利要求1所述的基于谱聚类的过采样方法,其特征在于,在所述步骤5中,对于安全簇,根据密度分别进行过采样,具体过程为:
步骤5.1 计算安全簇中簇内样本个数;
步骤5.2 根据簇内个数归一化操作得到0-1的数
步骤5.3 安全簇的选择概率
步骤5.4 在选择好的簇中随机选择簇内两个少数类样本点,在各个维度中线性随机插值构造新的样本点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011462702.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提取RNA的试剂盒及其方法
- 下一篇:一种汽车车载语音交互系统及方法