[发明专利]基于随机抽样报文流长分布的流量流数推断方法有效
申请号: | 201010566417.6 | 申请日: | 2010-11-30 |
公开(公告)号: | CN101986607A | 公开(公告)日: | 2011-03-16 |
发明(设计)人: | 程光 | 申请(专利权)人: | 东南大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;H04L12/56 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 汤志武 |
地址: | 210096*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机 抽样 报文 分布 流量 推断 方法 | ||
技术领域
本发明涉及网络流量测量技术,特别是有利于采用抽样统计推断技术的推断网络流数的测量技术,使得该测量方法可以利用抽样报文流量以的统计分布中较高精度推断出原始流量的流数数量。属于网络流量抽样测量领域。
背景技术
网络流量测量和监控是网络管理的一个重要内容,其中网络流量中的流数信息对于我们网络行为、安全分析等具有重要意义。流就是在一个测量时间段内通过一条链路的报文中源IP、宿IP、源端口、宿端口和协议五元个字段或其中若干个字段完全相同的报文集合。流数就是在这些集合中不同流的数量。由于蠕虫、病毒、扫描等事件都和流数相关,因此准确测量出网络中的流数信息对网络管理和网络安全非常重要。
流就是在一个测量时间段内通过一条链路的报文中源IP、宿IP、源端口、宿端口和协议五元个字段或其中若干个字段完全相同的报文集合,流数就是在这些集合中不同流的数量。然而由于处理器能力、缓存容量、网络带宽等硬件资源的限制,测量高速链路中传输的所有报文信息代价过大,因此普遍采用从链路中按照一定的比例抽取部分报文进行流量测量,如Cisco路由器的Netflow就具有报文抽样功能。对于从随机抽样报文的中估计流数的方法主要有3种,第一种是直接将抽样报文的流数除以抽样比率估计为流数,第二种是简单地使用抽样报文中的流数作为原始流数。这两种方法是非常简单,其缺点是没有考虑流量分布具有重尾特性,在抽样时造成的大量短流信息的丢失,第一种方法的估计流数过高,第二种方法估计流数过低。第三种方法可以采用EM算法推断出原始流量的流长分布,然后根据原始流量的流长分布统计出流数,但是这种方法中的EM算法虽然能够用来估计原始流数,但EM算法时间复杂度非常高,同时EM算法对于大流和短流混合估计造成精度很低。
二项分布(Binomial Distribution),即重复n次的伯努力试验(Bernoulli Experiment)。如果一个被报文抽样的概率是p,则报文没有被抽样的概率q=1-p,经过n次独立重复试验中抽取k个报文的概率是二项分布公式
式中X为在n次贝努里试验中出现成功的次数,表示在n次抽样试验中抽样到k个报文的各种组合情况,称为二项系数(binomial coefficient)。
本发明就是对抽样报文进行统计分析来推断原始流量中的流数,与传统的数据流方法的主要区别在于将原始流量的流数推断分成未抽样部分流数和已抽样部分流数,对抽样流量进行统计计算出已抽样流量部分,而未抽样部分的流数的推断是采用二项分布估计出短流没有被抽样的概率,而原始流量中长流由于没有被抽样的概率非常低,直接将长流丢弃,而对于短流分布的估计方法采用递归的方法估计。本发明的方法由于将未抽样流数和已抽样流数分开计算,与传统方法相比,可以对抽样报文中的流数进行较高精度的推断。
发明内容
本发明提供一种兼顾运行效率并能够提高估计精度的基于随机抽样报文流长分布的流量流数推断方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010566417.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:胶塞输送机构
- 下一篇:一种验证域名链接的方法、装置及系统