[发明专利]聚类方法、装置、计算机设备、存储介质和程序产品有效

申请号：	201711288774.9	申请日：	2017-12-07
公开（公告）号：	CN108038500B	公开（公告）日：	2020-07-03
发明（设计）人：	杜森	申请（专利权）人：	东软集团股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06Q30/02
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	张润
地址：	110179 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	方法装置计算机设备存储介质程序产品
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种聚类方法、装置、计算机设备、存储介质和程序产品，其中，方法包括：从样本集合中选取一个未被聚类的样本作为候选样本；根据候选样本的位置信息，构建候选样本的邻域；在邻域内样本的第一样本数量和邻域内样本所属用户的第一用户数量，均超出各自的阈值时，确定候选样本为核心对象；迭代获取核心对象的密度可达的样本，利用每次迭代到的密度可达的样本，更新核心对象当前对应的聚类簇，直到获取到核心对象最终的目标聚类簇；当样本集合中不存在未被聚类的样本时，完成对样本集合的聚类处理，获取样本集合所有的目标聚类簇。该方法可以在全局对样本集合进行聚类处理，有效提升该方法的适用性。

技术领域

本发明涉及互联网技术领域，尤其涉及一种聚类方法、装置、计算机设备、存储介质和程序产品。

背景技术

随着互联网技术的不断发展，根据用户行为的历史记录，发掘用户的偏好信息具有重要的价值，从而可以对用户进行个性化的精准服务。现有技术中，基于预先限定的规则区域，通过统计的方法，得到聚类簇，进而根据聚类簇发掘活跃聚类簇。

这种方式下，由于统计方法只能基于预先限定的规则区域，适用性不高，导致聚类效果不佳。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种聚类方法，不受传统基于规则区域的限制，可以在全局对样本集合进行聚类处理，有效提升该方法的适用性。此外，该聚类方法，只有当候选样本的邻域内样本的第一样本数量和邻域内样本所属用户的第一用户数量，均超出各自的阈值时，确定候选样本为核心对象，从而迭代获取核心对象的密度可达的样本，利用每次迭代到的密度可达的样本，更新核心对象当前对应的聚类簇。由于在确定核心对象的过程中增加了用户数量的内容，使得用户数量成为影响样本聚类的重要因素，避免出现将单个或极少数用户的多个样本形成一个聚类簇，而这种聚类簇不能反映出大众偏好趋势，使得聚类簇不具有普遍性。本实施例中，能够有效提升聚类效果，从而使得后续对活跃聚类簇的确定，更能反映大众偏好趋势。

本发明的第二个目的在于提出一种聚类装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种聚类方法，包括：

从样本集合中选取一个未被聚类的样本作为候选样本；

根据所述候选样本的位置信息，构建所述候选样本的邻域；

如果所述邻域内样本的第一样本数量和所述邻域内样本所属用户的第一用户数量，均超出各自的阈值，则确定所述候选样本为核心对象；

迭代获取所述核心对象的密度可达的样本，利用每次迭代到的所述密度可达的样本，更新所述核心对象当前对应的聚类簇，直到获取到所述核心对象最终的目标聚类簇；

当所述样本集合中不存在未被聚类的样本时，完成对所述样本集合的聚类处理，获取所述样本集合所有的目标聚类簇。

作为本发明第一方面实施例第一种可能的实现方式，所述获取所述样本集合所有的目标聚类簇之后，还包括：

针对每个目标聚类簇，统计所述目标聚类簇中所包括的样本的总个数；