[发明专利]用于数据聚类分组的方法、装置、电子设备及可读介质在审

申请号：	201710598005.2	申请日：	2017-07-20
公开（公告）号：	CN107358268A	公开（公告）日：	2017-11-17
发明（设计）人：	闫强;李爱华;葛胜利	申请（专利权）人：	北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京律智知识产权代理有限公司11438	代理人：	阚梓瑄,王卫忠
地址：	100195 北京市海淀区杏石口路6***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于数据分组方法装置电子设备可读介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机信息处理领域，具体而言，涉及一种用于数据聚类分组的方法、装置、电子设备及计算机可读介质。

背景技术

数据聚类是数据挖掘中一种常规的技术，而且聚类的数据簇数往往和业务的粘合性很高。k-means：是最为经典的基于划分的聚类方法，属于硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。K-means算法基本思想是以空间k个点为中心进行聚类，对最靠近他们的对象归类，通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

但常规的k-means使用了静态的K值进行数据聚类，使得更本无法满足实际的业务需求。首先，k值为静态，但业务应用的业务数据往往为动态，随时间会有变化，所以导致聚类效果很差，严重的影响线上使用其次，如果每次聚类前都进行k值的优化判断，会导致线上的效率很差，影响业务应用。

因此，需要一种新的用于数据聚类分组的方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种用于数据聚类分组的方法、装置、电子设备及计算机可读介质，能够提高数据聚类分组的效率。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一方面，提出一种用于数据聚类分组的方法，该方法包括：获取标准数据，标准数据包括时间信息；根据所述时间信息，历史数据分布簇数确定当前数据分布簇数；根据当前数据分布簇数对标准数据进行聚类运算获取中心点；以及根据中心点将标准数据进行分组。

在本公开的一种示例性实施例中，还包括：通过历史标准数据获取历史数据分布簇数。

在本公开的一种示例性实施例中，通过历史标准数据获取历史数据分布簇数，包括：按照预定的数据分布簇数对历史标准数据进行预聚类处理；通过预聚类处理获取轮廓系数；以及通过轮廓系数与预定规则获取历史数据分布簇数。

在本公开的一种示例性实施例中，通过轮廓系数与预定规则获取历史数据分布簇数，包括：获取轮廓系数中的预定个极大值；将满足预定条件的预定个极大值之一作为第一轮廓系数；以及通过第一轮廓系数与预定规则获取历史数据分布簇数。

在本公开的一种示例性实施例中，通过轮廓系数与预定规则获取历史数据分布簇数，包括：按照时间信息将历史数据进行排序处理；通过轮廓系数与预定规则，分别获取各个历史时间内历史数据分布簇数。

在本公开的一种示例性实施例中，获取标准数据，包括：确定指标和指标值；根据指标和指标值获取原始数据；以及将原始数据进行数据处理获取标准数据。

在本公开的一种示例性实施例中，将原始数据进行数据处理获取标准数据，包括：对原始数据进行离群点处理以获取第一数据；对第一数据进行空值处理以获取第二数据；以及对第二数据进行标准化数据以获取标准数据。

在本公开的一种示例性实施例中，对第二数据进行标准化数据以获取标准数据，包括如下公式：

其中，A为标准化数据，A₁为第二数据，A_p为第二数据的均值，A_E为第二数据的方差值。

在本公开的一种示例性实施例中，根据所述时间信息，历史数据分布簇数确定当前数据分布簇数，包括：按照时间序列，通过历史数据分布簇数确定当前数据分布簇数。

在本公开的一种示例性实施例中，根据所述时间信息，历史数据分布簇数确定当前数据分布簇数，包括以下至少一者：通过均值法处理历史数据分布簇数确定当前数据分布簇数；以及通过加权平均法处理历史数据分布簇数确定当前数据分布簇数。

根据本发明的一方面，提出一种用于数据聚类分组的装置，该装置包括：数据模块，用于获取标准数据，标准数据包括时间信息；确值模块，用于根据时间信息，通过历史数据分布簇数确定当前数据分布簇数；聚类模块，用于根据当前数据分布簇数对标准数据进行聚类运算获取中心点；以及分组模块，用于根据中心点将标准数据进行分组。

在本公开的一种示例性实施例中，还包括：储值模块，用于通过历史标准数据获取历史数据分布簇数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司，未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710598005.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于数据聚类分组的方法、装置、电子设备及可读介质在审

专利文献下载