[发明专利]一种改进CluStream算法的方法、装置、设备和介质有效
申请号: | 202010673094.4 | 申请日: | 2020-07-14 |
公开(公告)号: | CN111858671B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 熊战磊 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06K9/62 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 李红萧;张腾 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 clustream 算法 方法 装置 设备 介质 | ||
本发明公开了一种改进CluStream算法的方法,包括:将CluStream算法的界标时间窗口模型替换为衰减时间窗口模型,并引入数据衰减速率作为衰减因子,进行微簇的提取;将CluStream算法配置为在对微簇快照进行存储的情况下,对金字塔时间模型配置限制规则以消除不同等级上微簇快照的重复计算;对CluStream算法引入Canopy算法以确定类簇数目和初始聚类中心,并利用Canopy‑Kmeans算法进行离线宏聚类操作的优化处理;将CluStream算法在SparkStreaming上并行化实现;通过SparkStreaming从kafka集群读取从数据源接收的数据以进行实时处理与在线分析。本发明还公开了一种装置、设备和介质。本发明能够快速、高效、易用、准确率高地实现对流式数据地实时统计与分析。
技术领域
本发明涉及数据挖掘聚类分析领域,更具体地,特别是指一种改进CluStream算法的方法、装置、设备和介质。
背景技术
随着信息技术的迅猛发展,在许多领域中数据会以流的形式出现。此类数据随着时间的流逝而不断演化,并且数据规模会持续增大,传统的基于静态数据的聚类挖掘技术不能满足数据流的处理要求,并且当数据流的规模较大时,会超过传统技术的计算能力。
为实现在线实时聚类要求,本发明基于分布式流式计算框架Spark Streaming,对传统的CluStream算法做出改进,克服其微簇特征向量不能实时反映数据流演化特性以及离线阶段采用的算法对用户要求苛刻并且初始聚类中心随机选取对聚类效果影响很大的缺点,从而实现对高速数据流进行高效精确地实时处理与在线分析。
在一些现有技术当中,CluStream算法的核心思想就是金字塔时间快照,以及分为on-line(在线)操作的micro-cluster(微簇)和off-line(离线)操作的macro-cluster(宏聚类)两个阶段,同时属于landmark window(界标窗口)的处理模式。
CluStream算法作为比较经典的数据流聚类算法,提供的在线/离线双层架构对流聚类挖掘具有重要意义。在线阶段能够实时处理快速到达的数据流,获取概要信息,离线阶段进行宏聚类,两阶段的结合很好地解决了数据流的聚类挖掘的基本要求。SparkStreaming是专门用于处理实时流式数据的计算引擎,二者结合,可以实现对海量流式实时数据进行在线聚类分析和统计。
然而,在对流式数据进行数据挖掘的过程中,发现CluStream算法存在以下不足之处:
1)它主要对基于界标时间窗口内的数据流进行微簇提取。随着时间的延长,界标时间窗口也会随着增大。不同时间的微簇却有着相同的权值,必然导致历史数据严重影响当前数据流动态演化的特性。
2)金字塔时间框架首先对微簇进行存储,然后需要运用系统规则对冗余簇进行删除,以满足距现在时间越近,粒度越细,反之则越远的需求。这种处理方式一定程度上增加了计算和存储负载。
3)离线宏聚类阶段,需要用户自己输入类簇数目k,然后利用K-means进行聚类。k值的确定对那些数据流领域知识不足的用户来说比较困难;K-means初始聚类中心的随机选择,也影响宏聚类的质量和效率。
发明内容
有鉴于此,本发明实施例的目的在于提供一种基于SparkStreaming和改进CluStream算法的海量流式数据实时聚类方法,基于专门用于处理实时流式数据的计算引擎Spark Streaming,并对传统的CluStream算法进行改进,将改进的CluStream算法在SparkStreaming上并行化实现,用于对海量流式数据进行实时处理与在线分析。
基于上述目的,本发明一方面提供了一种改进CluStream算法的方法,该方法包括:
将CluStream算法的界标时间窗口模型替换为衰减时间窗口模型,并引入数据衰减速率作为衰减因子,进行微簇的提取;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010673094.4/2.html,转载请声明来源钻瓜专利网。