[发明专利]一种动态流式数据的聚类方法在审

申请号：	201710454380.X	申请日：	2017-06-14
公开（公告）号：	CN107273930A	公开（公告）日：	2017-10-20
发明（设计）人：	蓝科;王纯斌;王勇;覃进学	申请（专利权）人：	成都四方伟业软件股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	成都金英专利代理事务所(普通合伙)51218	代理人：	袁英
地址：	610041 四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种动态数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种聚类方法，尤其涉及一种动态流式数据的聚类方法。

背景技术

聚类算法是数据挖掘领域的几大方法之一，如分类、聚类、回归、因素分析。在大数据时代，通过聚类算法分析海量数据，从中得到更好的决策能力，聚类算法的优势可以处理无监督机器学习，对没有标记的数据主动的进行分类。随着对聚类算法的研究不断深入，研究人员提出了越来越多不同的聚类算法，包括基于划分的聚类，基于网格的聚类，以及基于层次的聚类。这些算法针对不同的维度、规模、类型的数据集提出，针对相同的数据集，使用不同的聚类算法，得到的结果可能差异很大。

目前已有的各类聚类方法，主要分两类：一是指定固定的聚类算法，实施聚类算法并返回结果，但有限的算法导致面对复杂的数据结构的时候，最终聚类效果不理想，但其优点是处理的业务场景更加通用广泛。另一类算法是针对特定的应用领域，可以更细致的划分聚类任务和聚类目标，从而更精确的改进完善聚类算法，最终聚类结果也更符合用户目标，但该类方法的缺点是应用范围单一，本发明属于后者，是针对特定的流数据进行更加细致的处理的聚类方法。

在实时流数据的应用场景中，数据通常是以实时流数据形式进入系统，并且数据的个数随着时间不断变化，或者新增、或者减少，或者中途数据变化的情况。如果这些参数或维度字段是相对固定的，如果这些数据随着时间在发生变化，那么可以针对每一个时间点，增加一个时间参数，即在原有数据上增加了一个维度字段，仍使用K-means、X-means等方法进行聚类计算。

但是这些方法是把时间作为一个单独的字段或维度，融入原来数据，实际上只是把原有数据提升了一个维度，来进行聚类计算的。这样会出现一个问题，某些业务场景本来是根据时间在不断变化，而时间仅作为一个普通维度，聚类效果不好，也无法更好的反应数据的分类特性。

综上，在面对数据的个数随着时间不断变化，或者新增、或者减少，或者中途数据变化的情况，使用传统的K-means、X-means等方法无法有效的进行面对以上复杂的情况进行有效的数据聚类，目前业界也尚无一种针对实时流数据的较好的解决方法。

发明内容

本发明的目的在于克服现有技术的不足，提供一种适用于对时间特性数据动态变化的流式数据的聚类方法。本方法针对数据的特性进行了专项优化、针对缺失数据，使用HMM进行预测、针对同时间片中同一标识的重复数据进行处理的方法，使本发明能够甄别异常数据、自动优化聚类类别个数、得到高质量的聚类结果。

本发明的目的是通过以下技术方案来实现的，一种动态流式数据的聚类方法，它包括以下步骤：

S1：提取时间字段，将数据转化为时间字段数据，并单独将时间字段提取出来；

S2：构建时间片，时间字段排序后构建出时间片段；

S3：判定数据点，定位识别每个数据；

S4：时间片、数据求并集，并将没有对应数据的时间片标记出来；

S5：构建训练模型，对缺失数据构建HMM预测；

S6：检查数据有效性，对重复数据点新增时间片；

S7：剔除异常数据，根据全部时间片，检查是否存在波动异常的数据；

S8：质心数据聚类。

在步骤S1中所述的数据是字段、结构清晰的结构化数据；所述的提取时间字段，时间字段在通过结构储存后，原来的数据结构中不再含有时间字段。

在步骤S2中所述的构建时间片是根据时间字段的数值，对每一个数据集升序排序，每一个数据集作为一个时间片，每个时间片内又包含对应的一个数据集，且每个数据在不同的时间片上能够定位和识别，数据在任意时间点上可以缺失，但不存在重复。

在步骤S3中所述的判定数据点目的在于使数据在任意时间点不存在重复，但可以缺失。

在步骤S4中所述的求并集是对所有时间片和数据求并集，即每一个时间片下，包含整时间段的所有数据，如该数据点在该时间片下无对应数据，则标识出来进入步骤S5做出进一步处理。

在步骤S5中所述的构建训练模型是对缺失数据使用HMM构建新模型，并对模型进行训练和预测。

在步骤S6中所述的检查数据有效性，如果出现重复数据则对重复数据进行标记，对时间片以增加副本形式进行标记，是数据处理的每个时间片都没有重复。

在步骤S7中所述的剔除异常数据是根据全部时间片，检查是否有存在波动异常的数据，如存在则剔除该数据。

在步骤S8中所述的质心数据聚类包括以下步骤：

S81：求质心，利用求质心公式，求出每一个数据，在不同时间点下的所有数据的质心；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司，未经成都四方伟业软件股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710454380.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于深度协同神经网络的无人机自主降落方法
下一篇：一种交叉渐进提取信息的生物聚类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种动态流式数据的聚类方法在审

专利文献下载