[发明专利]数据流的处理方法及系统、电子设备、存储介质在审
申请号: | 201910181552.X | 申请日: | 2019-03-11 |
公开(公告)号: | CN111694862A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 纪晓康 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;李梦男 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据流 处理 方法 系统 电子设备 存储 介质 | ||
本发明公开了一种数据流的处理方法及系统、电子设备、存储介质。处理方法包括:根据初始时刻采集的网络中节点的初始数据流,对节点进行聚类,生成至少2个簇;其中,簇的核心点集中任意两节点的相关度大于相关阈值,且核心点集中的每个节点在网络拓扑图中具有相邻节点;簇的边界点集中的每个节点与核心点集中至少一个节点的相关度大于相关阈值;对相关度大于相关阈值的两个节点,具有至少k个节点与两个节点的相关度均大于相关阈值;k值为极大值,且不存在核心点集的超集。本发明对数据噪音的容忍能力强,不会产生聚类结果频繁抖动的现象,使得聚类结果具有更好的稳定性,为提取具有高代表性、稳定性的代表数据流集合奠定了基础。
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据流的处理方法及系统、电子设备、存储介质。
背景技术
在数据大爆炸时代,如何对实时采集的数据流进行即时分析,挖掘出用户感兴趣的信息变得非常重要。然而,高精度的分析基于高密度的数据,这意味着数据流的数量可能会非常庞大,实时处理数量庞大的数据流是一项非常消耗资源的工作。因此,在实际应用中通常要对数据流进行压缩,也即从采集数据流中提取代表数据流集合。
目前,对大量数据流进行压缩分析的技术有:PCA(主成分分析法),该方法提取的代表数据流集合的代表性较差;基于聚类提取代表集合,先基于k-medoids和k-means等算法对数据流进行聚类,再从中提取代表数据流集合,然而该方法难以在计算复杂度与代表性之间取得平衡。且上述压缩分析方法均无法对噪音数据进行处理,抗干扰性较差,当噪音数据较多时,代表数据流集合的稳定性较差。
发明内容
本发明要解决的技术问题是为了克服现有技术中提取代表数据流集合无法兼顾计算复杂度与代表性之间的平衡,且抗干扰性较差的缺陷,提供一种数据流的处理方法及系统、电子设备、存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种数据流的处理方法,所述处理方法包括:根据初始时刻采集的网络中节点的初始数据流,对所述节点进行聚类,生成至少2个簇;
其中,每个簇包括核心点集和边界点集;
所述核心点集中任意两节点的相关度大于相关阈值,且所述核心点集中的每个节点在网络拓扑图中具有相邻节点;
所述边界点集中的每个节点与所述核心点集中至少一个节点的相关度大于所述相关阈值;
对相关度大于所述相关阈值的两个节点,具有至少k个节点与所述两个节点的相关度均大于所述相关阈值;
k值为极大值,且不存在核心点集的超集。
较佳地,根据所述初始数据流对所述节点进行聚类的步骤,具体包括:
对未聚类的每个节点,根据所述初始数据流统计与未聚类的每个节点的相关度大于所述相关阈值的节点的第一节点数量;
将所述第一节点数量最多的节点加入所述核心点集;
从相邻节点集中选取与所述核心点集中每个节点的相关度均大于所述相关阈值的节点,并加入所述核心点集;
所述相邻节点集包括所述核心点集中每个节点的相邻节点;
迭代从所述相邻节点集中选取节点并加入所述核心点集的步骤,直至所述相邻节点集中不存在与所述核心点集中每个节点的相关度均大于所述相关阈值的节点;
从相邻节点集中选取与所述核心点集中至少一个节点的相关度大于所述相关阈值的节点,并加入所述边界点集;
判断是否存在所述未聚类的节点,并在判断为是时,返回统计所述第一节点数量的步骤。
较佳地,所述处理方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910181552.X/2.html,转载请声明来源钻瓜专利网。