[发明专利]一种动态流式数据的聚类方法在审

专利信息
申请号: 201710454380.X 申请日: 2017-06-14
公开(公告)号: CN107273930A 公开(公告)日: 2017-10-20
发明(设计)人: 蓝科;王纯斌;王勇;覃进学 申请(专利权)人: 成都四方伟业软件股份有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 成都金英专利代理事务所(普通合伙)51218 代理人: 袁英
地址: 610041 四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 动态 数据 方法
【说明书】:

技术领域

发明涉及一种聚类方法,尤其涉及一种动态流式数据的聚类方法。

背景技术

聚类算法是数据挖掘领域的几大方法之一,如分类、聚类、回归、因素分析。在大数据时代,通过聚类算法分析海量数据,从中得到更好的决策能力,聚类算法的优势可以处理无监督机器学习,对没有标记的数据主动的进行分类。随着对聚类算法的研究不断深入,研究人员提出了越来越多不同的聚类算法,包括基于划分的聚类,基于网格的聚类,以及基于层次的聚类。这些算法针对不同的维度、规模、类型的数据集提出,针对相同的数据集,使用不同的聚类算法,得到的结果可能差异很大。

目前已有的各类聚类方法,主要分两类:一是指定固定的聚类算法,实施聚类算法并返回结果,但有限的算法导致面对复杂的数据结构的时候,最终聚类效果不理想,但其优点是处理的业务场景更加通用广泛。另一类算法是针对特定的应用领域,可以更细致的划分聚类任务和聚类目标,从而更精确的改进完善聚类算法,最终聚类结果也更符合用户目标,但该类方法的缺点是应用范围单一,本发明属于后者,是针对特定的流数据进行更加细致的处理的聚类方法。

在实时流数据的应用场景中,数据通常是以实时流数据形式进入系统,并且数据的个数随着时间不断变化,或者新增、或者减少,或者中途数据变化的情况。如果这些参数或维度字段是相对固定的,如果这些数据随着时间在发生变化,那么可以针对每一个时间点,增加一个时间参数,即在原有数据上增加了一个维度字段,仍使用K-means、X-means等方法进行聚类计算。

但是这些方法是把时间作为一个单独的字段或维度,融入原来数据,实际上只是把原有数据提升了一个维度,来进行聚类计算的。这样会出现一个问题,某些业务场景本来是根据时间在不断变化,而时间仅作为一个普通维度,聚类效果不好,也无法更好的反应数据的分类特性。

综上,在面对数据的个数随着时间不断变化,或者新增、或者减少,或者中途数据变化的情况,使用传统的K-means、X-means等方法无法有效的进行面对以上复杂的情况进行有效的数据聚类,目前业界也尚无一种针对实时流数据的较好的解决方法。

发明内容

本发明的目的在于克服现有技术的不足,提供一种适用于对时间特性数据动态变化的流式数据的聚类方法。本方法针对数据的特性进行了专项优化、针对缺失数据,使用HMM进行预测、针对同时间片中同一标识的重复数据进行处理的方法,使本发明能够甄别异常数据、自动优化聚类类别个数、得到高质量的聚类结果。

本发明的目的是通过以下技术方案来实现的,一种动态流式数据的聚类方法,它包括以下步骤:

S1:提取时间字段,将数据转化为时间字段数据,并单独将时间字段提取出来;

S2:构建时间片,时间字段排序后构建出时间片段;

S3:判定数据点,定位识别每个数据;

S4:时间片、数据求并集,并将没有对应数据的时间片标记出来;

S5:构建训练模型,对缺失数据构建HMM预测;

S6:检查数据有效性,对重复数据点新增时间片;

S7:剔除异常数据,根据全部时间片,检查是否存在波动异常的数据;

S8:质心数据聚类。

在步骤S1中所述的数据是字段、结构清晰的结构化数据;所述的提取时间字段,时间字段在通过结构储存后,原来的数据结构中不再含有时间字段。

在步骤S2中所述的构建时间片是根据时间字段的数值,对每一个数据集升序排序,每一个数据集作为一个时间片,每个时间片内又包含对应的一个数据集,且每个数据在不同的时间片上能够定位和识别,数据在任意时间点上可以缺失,但不存在重复。

在步骤S3中所述的判定数据点目的在于使数据在任意时间点不存在重复,但可以缺失。

在步骤S4中所述的求并集是对所有时间片和数据求并集,即每一个时间片下,包含整时间段的所有数据,如该数据点在该时间片下无对应数据,则标识出来进入步骤S5做出进一步处理。

在步骤S5中所述的构建训练模型是对缺失数据使用HMM构建新模型,并对模型进行训练和预测。

在步骤S6中所述的检查数据有效性,如果出现重复数据则对重复数据进行标记,对时间片以增加副本形式进行标记,是数据处理的每个时间片都没有重复。

在步骤S7中所述的剔除异常数据是根据全部时间片,检查是否有存在波动异常的数据,如存在则剔除该数据。

在步骤S8中所述的质心数据聚类包括以下步骤:

S81:求质心,利用求质心公式,求出每一个数据,在不同时间点下的所有数据的质心;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710454380.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top