[发明专利]一种改进初始聚类中心选择的方法及系统在审

专利信息
申请号: 201810008228.3 申请日: 2018-01-04
公开(公告)号: CN108563662A 公开(公告)日: 2018-09-21
发明(设计)人: 姜合;谢青青;李会娟;韩冰;王东远 申请(专利权)人: 齐鲁工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 济南信达专利事务所有限公司 37100 代理人: 孟峣
地址: 250353 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据对象 聚类 初始中心点 初始聚类中心 皮尔森相关系数 改进 随机性问题 获取数据 降序排列 数据集中 重新计算 最小数据 中心点 替换 并用 分组
【说明书】:

发明公开了一种改进初始聚类中心选择的方法及系统,其实现过程为,首先获取数据集,该数据集中含有若干数据对象;选择最小的数据对象;计算所有数据对象与最小数据对象之间的皮尔森相关系数;根据获取的皮尔森相关系数,按照从大到小的顺序降序排列所有数据对象;将数据对象进行分组,获取初始中心点;根据选好的初始中心点进行聚类,重新计算每一个聚类的均值,并用新的均值替换原来的中心点,完成聚类。该改进初始聚类中心选择的方法及系统与现有技术相比,能够通过皮尔森相关性来确定聚类初始中心点的方法,来避免初始中心点选择的随机性问题,提高聚类准确性,实用性强,适用范围广泛,易于推广。

技术领域

本发明涉及计算机数据挖掘技术领域,具体地说是一种实用性强、改进初始聚类中心选择的方法及系统。

背景技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类在地球观测数据库中相似地区的确定,汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。聚类也能用于对Web上的文档进行分类,以发现信息。

现有技术中,最常用的聚类算法就是均值算法k-means算法,该算法是数据挖掘技术中基于划分方法的一个经典的聚类算法,因为该算法的理论可靠、算法简单、收敛迅速而被广泛应用。但是,k均值算法对初始聚类中心点的选取非常敏感,不好的初始中心点的选取会导致聚类结果不稳定,导致聚类准确性较差。

此外,目前的聚类过程需要重新输入数据,采用外部聚类器实现,这样就会导致聚类时间过长,工作效率较低。

基于此,本发明提出一种解决上述问题、改进初始聚类中心选择的方法及系统。

发明内容

本发明的技术任务是针对以上不足之处,提供一种实用性强、改进初始聚类中心选择的方法及系统。

一种改进初始聚类中心选择的方法,其实现过程为,

步骤一、首先获取数据集,该数据集中含有若干数据对象;

步骤二、选择最小的数据对象;

步骤三、计算所有数据对象与最小数据对象之间的皮尔森相关系数;

步骤四、根据获取的皮尔森相关系数,按照从大到小的顺序降序排列所有数据对象;

步骤五、将数据对象进行分组,获取初始中心点;

步骤六、根据选好的初始中心点进行聚类,重新计算每一个聚类的均值,并用新的均值替换原来的中心点,完成聚类。

所述步骤一中的数据集获取包括采集数据对象、数据对象清洗、数据对象处理,其中采集数据对象是指采集各种被测对象的数据参数;数据对象清洗是指对采集的数据对象进行包括填充缺失数据、消除噪声数据的步骤,提高数据集的质量;数据对象处理是指对数据进行包括存储、检索、加工、变换和传输的过程。

所述步骤三中的皮尔森相关系数计算公式如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810008228.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top