[发明专利]聚类方法、装置和计算设备在审
申请号: | 202011059650.5 | 申请日: | 2020-09-30 |
公开(公告)号: | CN114330465A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 胥鹏鹏;许利霞;郑卫炎 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 吴瑜 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 方法 装置 计算 设备 | ||
一种聚类方法,包括:在聚类装置获取到第一待聚类数据后,从聚类算法池包含的多个聚类算法中选择第一聚类算法,按照第一聚类算法完成对第一待聚类数据的聚类,使得第一聚类算法对第一待聚类数据的聚类效果优于聚类算法池中其他算法的聚类效果。由于聚类过程中所选择的聚类算法可以根据待聚类数据进行自适应调整,能够满足不同待聚类数据的需求,获得更准确的聚类结果。
技术领域
本申请涉及机器学习领域,尤其涉及一种聚类方法、装置和计算设备。
背景技术
在大数据时代,海量的数据已远远超出了人类的理解能力。为了获取海量的数据所蕴含的信息,可以使用机器学习领域的算法对海量的数据进行挖掘。聚类是对数据集进行分组的一种非监督学习技术。聚类过程可以使用不同算法实现聚类,按照聚类算法可以将数据集分成若干个簇(cluster),确保同一簇内的数据之间具有相同的属性或者特征。但往往基于一种聚类算法对具有不同特征的数据进行聚类,由于不同的数据(如:文本、数字、图像数据)的特征分布不同,如果采用一种聚类算法对不同特征分布的数据进行聚类,无法保证聚类结果的合理性。因此,如何提供一种更合理的聚类方法成为亟待解决的问题。
发明内容
本申请提供了一种聚类方法、装置和计算设备,由此提供一种更合理的聚类方法。
第一方面,本申请提供了一种聚类方法,该方法可以应用于聚类装置,具体包括如下步骤:获取到第一待聚类数据后,从聚类算法池中选择第一聚类算法,按照第一聚类算法完成对第一待聚类数据的聚类,使得第一聚类算法对第一待聚类数据的聚类效果优于聚类算法池中其他算法的聚类效果。其中,聚类算法池包括至少两个聚类算法,第一聚类算法为聚类算法池中任意一个算法。
如此,在聚类过程中可以从多个预设的聚类算法中自适应选择聚类算法,使得选择到的第一聚类算法适用于待聚类数据的特征分布,利用适应不同待聚类数据的需求,最终获得更准确的聚类结果。
在一种可能的实现方式中,从聚类算法池中选择第一聚类算法,包括:利用聚类算法池中多个聚类算法分别对第二待聚类数据进行聚类得到聚类结果,依据多个聚类算法的聚类结果选择第一聚类算法。其中,第一待聚类数据和所述第二待聚类数据的特征分布相同。可选的,多个聚类算法可以是用户指示的聚类算法池中的聚类算法。
具体的,评估多个聚类算法的聚类结果得到多个评估结果;根据多个评估结果选择第一聚类算法。
示例的,评估多个聚类算法的聚类结果得到多个评估结果,包括:确定多个聚类算法的聚类结果的评估系数,得到多个评估结果,多个评估结果包括第一聚类算法的评估结果,第一聚类算法的评估系数优于聚类算法池中其他算法的评估系数,评估系数用于衡量每个聚类结果中同一类内数据的相似程度,以及每个聚类结果中不同类的数据的差异程度;则根据多个评估结果选择第一聚类算法,包括:选择多个评估结果的评估系数中趋于阈值的评估系数对应的聚类算法作为第一聚类算法。
可选的,评估系数可以是紧凑度和分离度。紧凑度用于衡量每个聚类结果中同一类内数据的相似程度。分离度用于衡量每个聚类结果中不同类的数据的差异程度。
调用预先配置的多个聚类算法对待聚类数据进行聚类后,综合评估多个聚类结果,最终选择一个适用于待聚类数据的特征分布的第一聚类算法,有效地提高了聚类装置的整体适应性,获得最优的聚类结果。
在另一种可能的实现方式中,在按照第一聚类算法完成对第一待聚类数据的聚类之前,方法还包括:按照预设规则调整第一聚类算法的参数,预设规则为依据第一聚类算法对第二待聚类数据进行聚类的收敛趋势调整第一聚类算法的参数。
在另一种可能的实现方式中,按照预设规则调整第一聚类算法的参数,包括:根据预设步长调整第一聚类算法的参数的初始值,得到第一聚类算法的参数的中间值;利用第一聚类算法的参数的中间值对第二待聚类数据进行聚类,直到第一聚类算法收敛,将第一聚类算法的参数的中间值确定为第一聚类算法的参数的调整值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011059650.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据流统计方法及以太网交换机
- 下一篇:信息处理方法及装置