[发明专利]一种基于改进k-means聚类算法的质心空间上采样算法在审

专利信息
申请号: 202110264357.0 申请日: 2021-03-11
公开(公告)号: CN112861993A 公开(公告)日: 2021-05-28
发明(设计)人: 王海勇;管维正;张开心 申请(专利权)人: 南京邮电大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 南京纵横知识产权代理有限公司 32224 代理人: 邵斌
地址: 210012 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 means 算法 质心 空间 采样
【说明书】:

发明公开了数据聚类分析技术领域的一种基于改进k‑means聚类算法的质心空间上采样算法,能够更好的提高聚类速度和准确率,降低算法的计算复杂度,减少算法的运行时间,并且避免出现k‑means算法的局部最优问题的出现。包括:使用k‑means聚类算法对样本集进行聚类,并基于距离原则选择初始聚类中心;基于给定的存储结构,计算样本集中各样本分别与各初始聚类中心的欧式距离,进而获取聚类簇;基于获取的聚类簇,通过各聚类簇之间的欧氏距离计算出样本的初始质心,形成质心簇;根据每个质心簇的欧氏距离计算出所有样本簇总的欧氏距离;每个质心欧氏距离与样本总的欧氏距离的比值,得到权重系数;权重系数和需要上采样的样本的乘积为每个质心簇的增加的样本数。

技术领域

本发明属于数据聚类分析技术领域,具体涉及一种基于改进k-means聚类算法的质心空间上采样算法。

背景技术

当今互联网技术迅速发展,各个应用领域都积累了海量的数据,而解决数据不平衡问题及其相关研究是对这些海量的数据进行处理时面临的一大挑战。机器学习分类算法通常以准确率为导向,在进行数据集训练的过程中都是假设不同类的数据比例是平衡的,因而对不同类样本数据同等对待以提高准确率。

但是,此类算法没有将数据分布均衡问题纳入考虑范围内,即使分类器的全局准确率很高,其中的不平衡样本中的少数样本的识别率还是比较低的。尤其是当其中的某一类数据的数量远超其他类时,就会产生分类器偏向多数类样本而使得多数类的分类精度较高而少数类的分类精度很低。在极端情况下,少数类样本会被视为多数类的异常点而被合并到多数类下。在这种情况下,学习训练出来的模型显然是错误的,并且可能造成严重后果。例如,在银行欺诈检测中,通常大多数的客户都在正常交易而个别客户的行为可能是欺诈行为,数据处理中对这些个别行为的疏漏将会造成巨大的损失。

发明内容

为解决现有技术中的不足,本发明提供一种基于改进k-means聚类算法的质心空间上采样算法,能够更好的提高聚类速度和准确率,降低算法的计算复杂度,减少算法的运行时间,并且避免出现k-means算法的局部最优问题的出现。

为达到上述目的,本发明所采用的技术方案是:一种基于改进k-means聚类算法的质心空间上采样算法,包括:使用k-means聚类算法对样本集进行聚类,并基于距离原则选择初始聚类中心;基于给定的存储结构,计算样本集中各样本分别与各初始聚类中心的欧式距离,进而获取聚类簇;基于获取的聚类簇,通过各聚类簇之间的欧氏距离计算出样本的初始质心,形成质心簇;根据每个质心簇的欧氏距离计算出所有样本簇总的欧氏距离;每个质心欧氏距离与样本总的欧氏距离的比值,得到权重系数;权重系数和需要上采样的样本的乘积为每个质心簇的增加的样本数。

进一步地,所述使用k-means聚类算法对样本集进行聚类指对小类样本进行聚类。

进一步地,所述基于距离原则选择初始聚类中心,包括:

b-a、根据所有小类样本的坐标,所有样本的坐标相加求平均,得到小类样本集的重心记为O点;

b-b、选择距离重心O点最远的一点作为O1点,O1点为第一个初始聚类中心;

b-c、选距离O1点最远的一点作为O2点,O2点为第二个初始聚类中心;

b-d、选择到O1点和O2点距离和最大的点作为O3点,O3点为第三个初始聚类中心;

b-e、依此类推,得到k个初始聚类中心,其集合为{Q1,Q2,…,Qk}。

进一步地,所述基于给定的存储结构,计算样本集中各样本分别与各初始聚类中心的欧式距离,进而获取聚类簇,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110264357.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top