[发明专利]一种聚类方法及电子设备在审
申请号: | 201811149734.0 | 申请日: | 2018-09-29 |
公开(公告)号: | CN109165696A | 公开(公告)日: | 2019-01-08 |
发明(设计)人: | 于连宇;高锋 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 黄威;喻嵘 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本相似度 聚类 数据样本 电子设备 聚类处理 获取数据 相似度 样本集 疏密 收敛 输出 申请 | ||
本发明提供了一种聚类方法和电子设备。所述聚类方法包括:获取数据样本集;计算所述数据样本集的样本相似度,样本相似度指示任意两个数据样本之间的相似度;基于设定的第一阈值以及所述数据样本集的样本相似度进行聚类处理,使得每个聚类的样本相似度的梯度不大于所述第一阈值,所述样本相似度的梯度指示多个数据样本之间的疏密程度;输出所述聚类处理的结果。本申请实施例中的聚类方法通过计算各数据样本的样本相似度,并且将样本相似度的梯度作为聚类条件进行聚类,显著改善了数据样本集的收敛速度,提高了聚类速度。
技术领域
本申请实施例涉及人工智能领域,特别涉及一种聚类方法和电子设备。
背景技术
目前在解决机器学习聚类问题时,现有解决方案有K-Means聚类法和层次聚类法等。K-Means聚类法通过预先指定分类个数,然后通过迭代收敛进行数据的聚类。但这种方法的缺点在于对于事先不容易确定具体的分类个数的数据群就不易进行聚类。对此问题的改进是通过多次尝试不同的分类个数,分别进行聚类,之后汇聚,而这样会使计算复杂化。层次聚类的方式是从一个分类开始,逐渐分裂,或者将每个数据都视为一个分类,逐渐合并。但这些方法收敛速度慢。
申请内容
为了解决上述技术问题,本申请提供了一种可有效改善数据收敛速度实现快速聚类的聚类方法和应用该方法的电子设备。
具体地,本申请实施例提供了一种聚类方法,包括:
获取数据样本集;
计算所述数据样本集的样本相似度,样本相似度指示任意两个数据样本之间的相似度;
基于设定的第一阈值以及所述数据样本集的样本相似度进行聚类处理,使得每个聚类的样本相似度的梯度不大于所述第一阈值,所述样本相似度的梯度指示多个数据样本之间的疏密程度;
输出所述聚类处理的结果。
作为优选,在所述聚类处理之前,所述方法还包括:
基于设定的第二阈值与所述数据样本集的样本相似度对所述数据样本集进行聚类预处理,使得所述聚类预处理后的每个类的样本相似度不小于所述第二阈值;
所述聚类处理包括:
对所述聚类预处理后的每个类进行聚类处理。
作为优选,所述对所述聚类预处理后的每个类进行聚类处理,包括:
针对所述每个类,指定用于形成目标聚类的至少一个初始数据样本;
通过针对所述每个类中的其余数据样本进行迭代计算,判定每个所述其余数据样本是否属于所述目标聚类,对于每次迭代,如果包括当前目标数据样本的样本相似度均值与不包括所述当前目标数据样本的样本相似度均值的差不大于所述第一阈值,则将所述当前目标数据样本包括在所述目标聚类中;
其中,所述目标聚类中包括当前目标数据样本的样本相似度均值与不包括所述当前目标数据样本的样本相似度均值的差形成所述样本相似度的梯度。
作为优选,所述当前样本相似度均值为所述当前目标数据样本与当前所述目标聚类中的各数据样本的样本相似度的均值,所述先前样本相似度均值为前一个目标数据样本与其当时对应的所述目标聚类中的各数据样本的样本相似度的均值。
作为优选,所述当前样本相似度均值为所述当前目标数据样本与当前所述目标聚类中的各数据样本的样本相似度的均值,所述先前样本相似度均值为当前所述目标聚类中所有任意两个数据样本间的样本相似度的均值。
作为优选,所述方法还包括:
对所述数据样本集进行分组形成多组数据样本;
所述计算所述数据样本集的样本相似度,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811149734.0/2.html,转载请声明来源钻瓜专利网。