[发明专利]一种基于谱聚类的过采样方法在审

专利信息
申请号: 202011462702.3 申请日: 2020-12-14
公开(公告)号: CN112418352A 公开(公告)日: 2021-02-26
发明(设计)人: 张爽;李媛洁;纪耀立 申请(专利权)人: 哈尔滨理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 150080 黑龙江省哈*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 谱聚类 采样 方法
【权利要求书】:

1.一种基于谱聚类的过采样方法,其特征在于,包括以下步骤:

步骤1:对不平衡数据集作为输入,区分出少数类样本和多数类样本,计算原始数据的不平衡比;

步骤2:将不平衡数据集利用谱聚类,划分为多个簇;

步骤3:根据簇内有无多数类或少数类筛选出边界簇和安全簇,并且根据各类簇所占比例确定簇的选择权重;

步骤4:对于边界簇,根据簇内的不平衡比分别进行过采样;

步骤5:对于安全簇,根据密度分别进行过采样;

步骤6:重复步骤3-5直至生成数据个数等于所需数据,并将生成的数据集添加到原始数据集中,构造成新的数据集。

2.根据权利要求1所述的基于谱聚类的过采样方法,其特征在于,所述步骤2中,将不平衡数据集利用谱聚类,划分为多个簇,具体步骤如下:

步骤2.1 利用KNN算法遍历所有的样本点,取每个样本最近的K个样本点作为近邻,计算样本点与其所对应的近邻样本之间之间的高斯距离,并通过两个样本点之间高斯距离构造相似矩阵A;

步骤2.2 通过相似矩阵A构造度矩阵D;

步骤2.3 根据相似矩阵A和度矩阵D,构造拉普拉斯矩阵L;

步骤2.4 计算拉普拉斯矩阵L所对应的特征值,找出最小的k个特征值和特征值所对应的特征向量;

步骤2.5 通过各个特征向量作为列向量构造特征矩阵R,其中R为n行k列矩阵;

步骤2.6 将n行当作n个样本点,采用k-means方法进行聚类,得到所需簇。

3.根据权利要求1所述的基于谱聚类的过采样方法,其特征在于,所述步骤3中,根据簇内有无多数类或少数类筛选出边界簇和安全簇,并且根据各类簇所占比例确定簇的选择权重,具体步骤为:

步骤3.1 将只含有多数类样本的簇定义为危险簇,只含有少数类样本的簇定义为安全簇,其余簇定义为边界簇;

步骤3.2 计算边界簇以及安全簇分别占有对应两种簇的比例。

4.根据权利要求1所述的基于谱聚类的过采样方法,其特征在于,所述步骤4中,对于边界簇,根据簇内的不平衡比分别进行过采样,具体步骤为:

步骤4.1 计算各个边界簇计算簇内的多数类与少数类的不平衡比率IRC

步骤4.2 根据各个簇的不平衡比率IRC,进行归一化确定边界簇中簇的选择概率p1

步骤4.3 在选择好的簇中随机选择簇内两个少数类样本点,在各个维度中线性随机插值构造新的样本点。

5.根据权利要求1所述的基于谱聚类的过采样方法,其特征在于,在所述步骤5中,对于安全簇,根据密度分别进行过采样,具体过程为:

步骤5.1 计算安全簇中簇内样本个数;

步骤5.2 根据簇内个数归一化操作得到0-1的数q,其中簇内样本点个数越多,其值越靠近1;

步骤5.3 安全簇的选择概率p2=1-q

步骤5.4 在选择好的簇中随机选择簇内两个少数类样本点,在各个维度中线性随机插值构造新的样本点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011462702.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top