[发明专利]一种动态流式数据的聚类方法在审
申请号: | 201710454380.X | 申请日: | 2017-06-14 |
公开(公告)号: | CN107273930A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 蓝科;王纯斌;王勇;覃进学 | 申请(专利权)人: | 成都四方伟业软件股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 成都金英专利代理事务所(普通合伙)51218 | 代理人: | 袁英 |
地址: | 610041 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 数据 方法 | ||
技术领域
本发明涉及一种聚类方法,尤其涉及一种动态流式数据的聚类方法。
背景技术
聚类算法是数据挖掘领域的几大方法之一,如分类、聚类、回归、因素分析。在大数据时代,通过聚类算法分析海量数据,从中得到更好的决策能力,聚类算法的优势可以处理无监督机器学习,对没有标记的数据主动的进行分类。随着对聚类算法的研究不断深入,研究人员提出了越来越多不同的聚类算法,包括基于划分的聚类,基于网格的聚类,以及基于层次的聚类。这些算法针对不同的维度、规模、类型的数据集提出,针对相同的数据集,使用不同的聚类算法,得到的结果可能差异很大。
目前已有的各类聚类方法,主要分两类:一是指定固定的聚类算法,实施聚类算法并返回结果,但有限的算法导致面对复杂的数据结构的时候,最终聚类效果不理想,但其优点是处理的业务场景更加通用广泛。另一类算法是针对特定的应用领域,可以更细致的划分聚类任务和聚类目标,从而更精确的改进完善聚类算法,最终聚类结果也更符合用户目标,但该类方法的缺点是应用范围单一,本发明属于后者,是针对特定的流数据进行更加细致的处理的聚类方法。
在实时流数据的应用场景中,数据通常是以实时流数据形式进入系统,并且数据的个数随着时间不断变化,或者新增、或者减少,或者中途数据变化的情况。如果这些参数或维度字段是相对固定的,如果这些数据随着时间在发生变化,那么可以针对每一个时间点,增加一个时间参数,即在原有数据上增加了一个维度字段,仍使用K-means、X-means等方法进行聚类计算。
但是这些方法是把时间作为一个单独的字段或维度,融入原来数据,实际上只是把原有数据提升了一个维度,来进行聚类计算的。这样会出现一个问题,某些业务场景本来是根据时间在不断变化,而时间仅作为一个普通维度,聚类效果不好,也无法更好的反应数据的分类特性。
综上,在面对数据的个数随着时间不断变化,或者新增、或者减少,或者中途数据变化的情况,使用传统的K-means、X-means等方法无法有效的进行面对以上复杂的情况进行有效的数据聚类,目前业界也尚无一种针对实时流数据的较好的解决方法。
发明内容
本发明的目的在于克服现有技术的不足,提供一种适用于对时间特性数据动态变化的流式数据的聚类方法。本方法针对数据的特性进行了专项优化、针对缺失数据,使用HMM进行预测、针对同时间片中同一标识的重复数据进行处理的方法,使本发明能够甄别异常数据、自动优化聚类类别个数、得到高质量的聚类结果。
本发明的目的是通过以下技术方案来实现的,一种动态流式数据的聚类方法,它包括以下步骤:
S1:提取时间字段,将数据转化为时间字段数据,并单独将时间字段提取出来;
S2:构建时间片,时间字段排序后构建出时间片段;
S3:判定数据点,定位识别每个数据;
S4:时间片、数据求并集,并将没有对应数据的时间片标记出来;
S5:构建训练模型,对缺失数据构建HMM预测;
S6:检查数据有效性,对重复数据点新增时间片;
S7:剔除异常数据,根据全部时间片,检查是否存在波动异常的数据;
S8:质心数据聚类。
在步骤S1中所述的数据是字段、结构清晰的结构化数据;所述的提取时间字段,时间字段在通过结构储存后,原来的数据结构中不再含有时间字段。
在步骤S2中所述的构建时间片是根据时间字段的数值,对每一个数据集升序排序,每一个数据集作为一个时间片,每个时间片内又包含对应的一个数据集,且每个数据在不同的时间片上能够定位和识别,数据在任意时间点上可以缺失,但不存在重复。
在步骤S3中所述的判定数据点目的在于使数据在任意时间点不存在重复,但可以缺失。
在步骤S4中所述的求并集是对所有时间片和数据求并集,即每一个时间片下,包含整时间段的所有数据,如该数据点在该时间片下无对应数据,则标识出来进入步骤S5做出进一步处理。
在步骤S5中所述的构建训练模型是对缺失数据使用HMM构建新模型,并对模型进行训练和预测。
在步骤S6中所述的检查数据有效性,如果出现重复数据则对重复数据进行标记,对时间片以增加副本形式进行标记,是数据处理的每个时间片都没有重复。
在步骤S7中所述的剔除异常数据是根据全部时间片,检查是否有存在波动异常的数据,如存在则剔除该数据。
在步骤S8中所述的质心数据聚类包括以下步骤:
S81:求质心,利用求质心公式,求出每一个数据,在不同时间点下的所有数据的质心;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710454380.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置