[发明专利]一种改进CluStream算法的方法、装置、设备和介质有效
申请号: | 202010673094.4 | 申请日: | 2020-07-14 |
公开(公告)号: | CN111858671B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 熊战磊 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06K9/62 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 李红萧;张腾 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 clustream 算法 方法 装置 设备 介质 | ||
1.一种改进CluStream算法的方法,其特征在于,所述方法包括:
将CluStream算法的界标时间窗口模型替换为衰减时间窗口模型,并引入数据衰减速率作为衰减因子,进行微簇的提取;
将所述CluStream算法配置为在对微簇快照进行存储的情况下,对金字塔时间模型配置限制规则以消除不同等级上所述微簇快照的重复计算;
对所述CluStream算法引入Canopy算法以确定类簇数目和初始聚类中心,并利用Canopy-Kmeans算法进行离线宏聚类操作的优化处理;
将所述CluStream算法在SparkStreaming上并行化实现;
通过所述SparkStreaming从kafka集群读取从数据源接收的所述数据以进行实时处理与在线分析。
2.根据权利要求1所述的改进CluStream算法的方法,其特征在于,所述方法还包括:
使用Http接口作为数据源中数据的入口,通过所述Http接口将所述数据发送至kafka集群。
3.根据权利要求1所述的改进CluStream算法的方法,其特征在于,所述对所述CluStream算法引入Canopy算法以确定类簇数目和初始聚类中心,并利用Canopy-Kmeans算法进行离线宏聚类操作的优化处理还包括:
根据接收到的时间阈值确定需要处理的所述微簇的集合;
利用所述Canopy算法计算近似的所述初始聚类中心,将所述初始聚类中心作为K-means的初始化参数,并判断数据流对象的归属;
响应于判断所述数据流对象属于所述Canopy算法的同一对象,通过K-means进行所述离线宏聚类操作。
4.根据权利要求1所述的改进CluStream算法的方法,其特征在于,所述将所述CluStream算法在所述SparkStreaming上并行化实现还包括:
响应于数据流传输到若干局部站点,采用并行化处理策略,所述局部站点针对在线实时的所述数据流对所述微簇进行初始化操作和实时更新操作。
5.根据权利要求4所述的改进CluStream算法的方法,其特征在于,所述将所述CluStream算法在所述SparkStreaming上并行化实现还包括:
响应于中心站点接收到聚类挖掘请求,将所述局部站点的所述微簇汇总到所述中心站点并进行在线宏聚类操作,根据所述在线宏聚类操作,对所述中心站点和所述局部站点进行迭代操作,并将中间结果以RDD的形式保存在内存中。
6.根据权利要求1所述的改进CluStream算法的方法,其特征在于,所述方法还包括:
对首次创建的所述微簇建立相关联的ID以对所述微簇进行标识,响应于通过所述微簇的合并产生新的微簇,对所述新的微簇创建相关联的新的所述ID。
7.根据权利要求1所述的改进CluStream算法的方法,其特征在于,所述方法还包括:
根据所述微簇的微簇信息获取预设时刻的所述微簇快照,根据金字塔时间模型周期性地将所述微簇快照存储在磁盘中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010673094.4/1.html,转载请声明来源钻瓜专利网。