[发明专利]聚类分析方法、装置及设备在审
申请号: | 201410852005.7 | 申请日: | 2014-12-31 |
公开(公告)号: | CN104598544A | 公开(公告)日: | 2015-05-06 |
发明(设计)人: | 陈志军;张涛;关亚勇 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类分析 方法 装置 设备 | ||
技术领域
本公开涉及数据处理技术领域,特别涉及一种聚类分析方法、装置及设备。
背景技术
随着计算机科学技术的蓬勃发展,诸如商业管理、政府办公、工程开发、科学研究等各个领域所涉及的数据量呈爆炸式增长。然而,在数据量呈爆炸式增长的同时,如何在海量的数据中高效提取有用信息成为了时下人们较为关注的一个焦点。为此,聚类分析(cluster analysis)作为一种将研究对象分为相对同质的群组(clusters)的数据挖掘方法,受到了大家的青睐。
相关技术中,通常采取SL(single-linkage,单连接)、CL(complete-linkage,完全连接)、AL(average-linkage,平均连接)三种层次聚类方法进行聚类分析。在计算类间距离时,依据相异度矩阵进行计算。其中,对于SL层次聚类方法,类间距离等于两类样本之间的最小距离。若用相似度衡量,则类间距离是一类中任一样本与另一类中任一样本的最大相似度。对于CL层次聚类方法,类间距离等于两类样本之间的最大距离。对于AL层次聚类方法,类间距离等于两类样本之间的平均距离。在得到类间距离后,基于该类间距离进行聚类。
针对上述三种聚类分析方法,在计算类间距离时均依赖于相异度矩阵;如果在计算相异度矩阵时,某一样本的数据存在误差,则若重复使用相异度矩阵,那么便存在将误差进一步放大的风险,从而导致聚类结果产生更大的偏差,聚类效果较差。
发明内容
为克服相关技术中存在的问题,本公开提供一种聚类分析方法、装置及设备。
根据本公开实施例的第一方面,提供一种聚类分析方法,所述方法包括:
对于待聚合类中的第一类和第二类,计算所述第一类和所述第二类中两两样本之间的距离,所述两两样本中一个样本来自于所述第一类,另一个样本来自于所述第二类;
将得到的样本距离按照预定顺序进行排序,确定指定数目个样本距离,所述指定数目根据所述第一类或所述第二类的类内聚合度调整得到;
根据所述指定数目个样本距离,计算所述第一类和所述第二类的类间距离;
根据所述待聚合类中每两个类之间的类间距离,对所述待聚合类进行聚类。
可选地,当所述第一类和所述第二类的类间距离为平均距离时,所述根据所述指定数目个样本距离,应用如下公式,计算所述第一类和所述第二类的类间距离,包括:
其中,Gp指代所述第一类,Gq指代所述第二类;K为常数,指代所述指定数目;i为变量,i∈[1,K];dki指代所述指定数目个样本距离中第i个样本距离的大小;Dk(Gp,Gq)指代所述第一类和所述第二类的类间距离。
可选地,当所述第一类和所述第二类的类间距离为中值距离时,所述根据所述指定数目个样本距离,应用如下公式,计算所述第一类和所述第二类的类间距离,包括:
Dk(Gp,Gq)=dkk/2
其中,Gp指代所述第一类,Gq指代所述第二类;K为常数,指代所述指定数目;dkk/2指代所述指定数目个样本距离中第K/2个样本距离的大小;Dk(Gp,Gq)指代所述第一类和所述第二类的类间距离。
可选地,所述确定指定数目个样本距离之前,所述方法还包括:
根据所述第一类的样本数量和样本距离,计算所述第一类的类内聚合度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司;,未经小米科技有限责任公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410852005.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件操作方法
- 下一篇:用于快速查询响应的系统和方法