[发明专利]一种形成样本类簇的方法及装置有效

申请号：	201910205005.0	申请日：	2019-03-18
公开（公告）号：	CN110032669B	公开（公告）日：	2023-10-27
发明（设计）人：	曹绍升;张志强	申请（专利权）人：	创新先进技术有限公司
主分类号：	G06F16/906	分类号：	G06F16/906
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁;周良玉
地址：	开曼群岛大开曼岛***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种形成样本方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供一种形成样本类簇的方法及装置。所述方法包括：首先，获取关系网络图中多个样本的特征信息和样本间连接关系；并基于所述多个样本中各个样本的特征信息，将所述多个样本划分为多个子集；接着，对所述多个子集中的样本分别进行聚类，得到N个聚群；N为正整数；接着，确定各个聚群的内聚度；确定聚群间耦合度；并根据该聚群间耦合度，以及聚群内聚度，确定聚群间耦合系数；然后，基于所述N个聚群中各个两两聚群的聚群间耦合系数，形成包括所述N个聚群作为节点的网络结构；基于所述网络结构的连通性，对所述N个聚群中的至少两个聚群进行合并，得到样本类簇。

技术领域

本说明书一个或多个实施例涉及计算机信息处理领域，尤其涉及一种形成样本类簇的方法及装置。

背景技术

在进行数据分析，特别是大数据分析时，聚类是一种常用的分析方法。直观上讲，聚类是指将相关度高的样本聚在一起，从而形成一个样本类簇(cluster)。聚类可以把相关度高的样本划分到一个样本类簇，使得同一个类簇内的样本相关度较高，而不同类簇之间的样本相关度较低。

随着智能终端的普及，用户日常生活产生的数据量迅速增加，这给聚类算法的性能带来了挑战。因此，需要一种能够有效地对大规模数据进行聚类的方法。

发明内容

本说明书一个或多个实施例描述了一种形成样本类簇方法及装置，可以有效地对大规模数据进行聚类分析。

根据第一方面，提供了一种形成样本类簇的方法，所述方法包括：

获取关系网络图中多个样本的特征信息和样本间连接关系；

基于所述多个样本中各个样本的特征信息，将所述多个样本划分为多个子集；

对所述多个子集中的样本分别进行聚类，得到N个聚群；N为正整数；

对于所述N个聚群中的各个聚群，基于该聚群内样本间的连接关系，确定各个聚群的内聚度；