[发明专利]一种改进初始聚类中心选择的方法及系统在审
申请号: | 201810008228.3 | 申请日: | 2018-01-04 |
公开(公告)号: | CN108563662A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 姜合;谢青青;李会娟;韩冰;王东远 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孟峣 |
地址: | 250353 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据对象 聚类 初始中心点 初始聚类中心 皮尔森相关系数 改进 随机性问题 获取数据 降序排列 数据集中 重新计算 最小数据 中心点 替换 并用 分组 | ||
1.一种改进初始聚类中心选择的方法,其特征在于,其实现过程为,
一、首先获取数据集,该数据集中含有若干数据对象;
二、选择最小的数据对象;
三、计算所有数据对象与最小数据对象之间的皮尔森相关系数;
四、根据获取的皮尔森相关系数,按照从大到小的顺序降序排列所有数据对象;
五、将数据对象进行分组,获取初始中心点;
六、根据选好的初始中心点进行聚类,重新计算每一个聚类的均值,并用新的均值替换原来的中心点,完成聚类。
2.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤一中的数据集获取包括采集数据对象、数据对象清洗、数据对象处理,其中采集数据对象是指采集各种被测对象的数据参数;数据对象清洗是指对采集的数据对象进行包括填充缺失数据、消除噪声数据的步骤,提高数据集的质量;数据对象处理是指对数据进行包括存储、检索、加工、变换和传输的过程。
3.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤三中的皮尔森相关系数计算公式如下:
其中分子是协方差cov(X,Y),分母是两个变量标准差的乘积;r表示皮尔森相关性;X表示在数据集中选出的最小数据对象min(D);Yi表示数据集中除最小数据对象外的其它数据对象;E表示X和Yi的期望值,即“X数据对象与其均值之差”乘以“Yi数据对象与其均值之差”得到一个乘积,再对这个乘积求和并求出均值;σ表示的是标准差,是计算两数据对象之间的离均差平方的算术平均数的平方根;μ表示数据对象的均值;i表示第i个数据对象,i的取值是1≤i≤m,m为样本数据对象总数。
4.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤五中,数据对象进行分组过程如下:根据步骤四中的排序以的长度来进行分组,其中m为数据对象总数;k为聚类总数,即步骤六中进行聚类时,根据选取好的初始中心点,将每一个样本聚类到离自己最近的k个样本之一;
获取初始中心点的过程如下:
根据分组情况利用公式计算初始中心点,即计算簇Ci的初始中心点ci,具体公式为,
i表示数据对象,1≤i≤m;ci表示初始中心点数据对象;C表示聚类的簇,Ci表示第i簇;bj表示属于簇Ci数据对象,其中1≤j≤n;n表示簇内数据的项数。
5.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤六中的聚类过程如下:
第一步、根据选取好的初始中心点,将每一个样本聚类到离自己最近的k个样本之一;
第二步、计算每一个聚类的均值,并用新的均值替换原来的聚类中心;
第三步、判断聚类中心是否改变,如改变就返回第二步,否就结束本算法,得到聚类结果。
6.一种改进初始聚类中心选择的系统,其特征在于,包括,
数据获取模块,用于获取含有若干数据对象的数据集;
数据计算模块,通过选择最小的数据对象,计算其它的所有数据对象与最小数据对象之间的皮尔森相关系数;
自动排序模块,用于根据获取的皮尔森相关系数,按照从大到小的顺序降序排列所有数据对象;
数据分组模块,根据自动排序模块中的分组,通过均值计算获取初始中心点;
聚类模块,用于根据选好的初始中心点进行聚类,重新计算每一个聚类的均值,并用新的均值替换原来的中心点,完成聚类。
7.根据权利要求6所述的一种改进初始聚类中心选择的系统,其特征在于,所述数据获取模块中配置有采集单元、清洗单元、处理单元,其中采集单元用于采集各种被测对象的数据参数;清洗单元用于对采集的数据对象进行包括填充缺失数据、消除噪声数据的步骤,提高数据集的质量;处理单元用于对数据进行包括存储、检索、加工、变换和传输的过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810008228.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、系统和电子设备
- 下一篇:图片推荐方法、装置、设备及存储介质