[发明专利]面向大规模网络流量的分布式社会网络结构快速挖掘系统有效
申请号: | 201811136073.8 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109347662B | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 王平辉;贾鹏;王翔宇;孙飞扬;齐逸岩;曾菊香;许诺;兰林;管晓宏;陶敬;韩婷 | 申请(专利权)人: | 西安交通大学深圳研究院 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;H04L29/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大规模网络流量 网络结构 网络拓扑结构 社会网络 拓扑结构 挖掘系统 挖掘 测量 分布式数据 测量模型 存储模型 社团检测 数据存储 异常行为 用户身份 数据处理 流数据 分配 可用 存储 预测 | ||
本发明提供一种面向大规模网络流量的分布式社会网络结构快速挖掘系统,对高速产生的大规模网络流量进行分布式地分配与存储,挖掘社会网络中存在的拓扑结构,包括数据处理、网络结构挖掘、数据存储三个子系统;面向大规模网络流量,提出原创的分布式数据分配与存储模型;提出原创的分布式社会网络结构测量模型,可对社会网络中存在的拓扑结构进行不同粒度的测量;本发明适用于大规模流数据,可用于网络拓扑结构测量;也可基于网络拓扑结构的测量结果,进行用户身份预测、社团检测、异常行为挖掘等。
技术领域
本发明属于数据挖掘技术领域,特别涉及一种面向大规模网络流量的分布式社会网络结构快速挖掘系统。
背景技术
随着互联网技术的快速发展与广泛应用,用户构成的社会网络越来越庞大。对于单个用户的分析,所能得到的网络结构信息较为有限。对于用户所处的社会网络的拓扑结构进行挖掘,可对用户所处的网络环境有更为深入的了解,对于从多维度了解用户特征,预测用户身份,挖掘社会网络中的异常群体,维护公共网络安全,构建和谐的网络环境,有着重要的意义。
在用户构建的社会网络中,网络流量是用户间相互连接、设备间相互通信的主要媒介,其中包含了大量有效信息。但网络流量数据产生速度快、规模大,存储需要消耗很大的磁盘或者内存空间。因此,以大规模网络流量为对象,分布式地对社会网络结构进行有效的挖掘,得到了国内外研究人员的广泛关注。
我们主要关注的是社会网络中的三角形拓扑结构,是社会网络中较为简单但却普遍存在的拓扑结构,例如,社会网络中三个用户间相互连接进行通信可形成三角形结构;设备间相互通信也可形成三角形结构。目前已经有一些方法进行社会网络结构中三角形拓扑结构的挖掘统计。由于网络流量中包含的社会网络规模过于庞大,对其中的拓扑结构进行准确挖掘需要消耗大量的计算和存储资源,目前方法主要关注于拓扑结构的估测。一方面,一些方法基于水池采样或以固定概率采样,可对动态产生的流式数据进行实时的测量,但误差较高,同时没有提出在分布式系统上进行测量的数据分配方案;另一方面,一些方法先对大网络数据进行采样形成子网络,然后借助分布式系统并行快速的计算能力,对子网络进行三角形拓扑结构的挖掘统计,但无法直接迁移到对大规模网络流量形成的社会网络进行网络结构的实时挖掘。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种面向大规模网络流量的分布式社会网络结构快速挖掘系统,与传统方法相比,本发明并不是单机或单线程网络结构挖掘算法在分布式系统上的简单拓展,优势在于,适用于高速产生的大规模网络流量数据,同时也可在其他网络结构数据上进行扩展,例如社交网络数据等;利用数据分发策略,将数据有效分发至各个处理单元并进行计算存储,计算速度快,显著降低了现有方法的测量误差。
为了实现上述目的,本发明采用的技术方案是:
面向大规模网络流量的分布式社会网络结构快速挖掘系统,包括:
数据处理子系统,对输入的大规模网络流量进行预处理,按照不同粒度提取网络流量数据,并将所提取的数据分发,进行分布式挖掘和存储;
具体地,数据分发子系统可按照不同粒度对大规模网络流量进行处理,提取数据包五元组,包含源IP地址、目的IP地址、源端口号、目的端口号、协议的全部数据或任意组合的数据,用来标记社会网络中的任意节点以及节点间的连接关系,例如:社会网络中节点表示IP地址,边表示IP之间有向的访问关系。同时,利用队列对网络流量进行短暂地存储,对高速产生的大规模网络流量进行缓冲。基于所提取的网络流量数据,数据分析子系统对分布式系统中的每个处理单元都进行分发,即,将提取的网络流量数据分发给网络结构挖掘子系统的每个处理单元。
网络结构挖掘子系统,包含c个相互独立的处理单元,编号{0,...,c-1},各个处理单元接收分发的网络流量数据,结合所存储的历史网络流量数据,挖掘社会网络中包含的拓扑结构并进行更新;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学深圳研究院,未经西安交通大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811136073.8/2.html,转载请声明来源钻瓜专利网。