[发明专利]一种数据流频繁项挖掘方法和装置有效
申请号: | 201110108557.3 | 申请日: | 2011-04-28 |
公开(公告)号: | CN102760132A | 公开(公告)日: | 2012-10-31 |
发明(设计)人: | 徐良 | 申请(专利权)人: | 中国移动通信集团浙江有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张驰;宋志强 |
地址: | 310006 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据流 频繁 挖掘 方法 装置 | ||
技术领域
本发明涉及数据业务技术领域,尤其涉及一种数据流频繁项挖掘方法和装置。
背景技术
网络数据流是有序到达的数据包集合。它的无限性、连续性和速度快等特点使得网络流量监控系统要同时统计所有的数据流信息是不现实的。已有对网络数据流性质的研究表明,数据流分布具有重尾分布特征(heavy-tailed distribution),即少量的IP流占据大部分的网络流量。此少量的IP流称为大流(heavy hitters)或频繁项(frequent entry)。假定当前数据流长度为N,给定支持度s∈(0,1),则所有频率计数超过sN的数据项即为频繁项。事实上,许多应用,如网络计费,负载均衡,拒绝服务攻击检测等仅需要频繁项流量信息,丢弃小流信息。近年来,数据流频繁项挖掘已成为一个研究热点,并取得了一些研究成果。
Manku和Motwani在文献“Approximate frequency counts over data streams.In Proceedings of the 28th International conference on Very Large Data Base,August 2002”中提出基于确定区间的ε近似数据流频繁项挖掘算法-损耗计数(Lossy Counting,LC)算法。该算法在内存中维护一个数据流表,记录数据流的频率估计值和误差边界。具体地,该算法将数据流均匀分片,某数据包到达时,查询数据流表中是否存在相应的数据项,有则相应频率计数值加1,否则在流表中插入新数据项,初始频率计数值为1,误差边界为上个分片结束时记录的误差边界。当到达分片末尾时,LC算法删除频率估计值和误差边界小于当前分片索引的流,并记录新的误差边界为当前分片索引。LC算法对各个分片的处理方法相同。当用户发出数据频繁项查询时,LC算法返回其频率估计值和误差边界大于等于选定门限sN的数据项。
LC算法实现简单,可快速检测数据流频繁项。但LC算法指定误差边界为当前分片索引,即数据流表中出现过的数据项的最大频率计数值。LC算法的误差边界过大地估计了数据流大小,使算法具有较高的误报率。
Dimitropoulos和Hurley在文献“Probabilistic lossy counting:An efficient algorithm for finding heavy hitters.ACM SIGCOMM Computer Communications Review,2008”中改进了LC算法中的误差边界估计方法,提出基于概率误差区间的ε近似算法一概率损耗计数(Probabilistic Lossy Counting,PLC)算法。该算法源于数据流分布具有重尾分布特征,其基本思想是利用重尾分布特征估计满足P(X>Δ)≤δ的误差边界Δ。
PLC算法在每个分片的结束,用pareto分布(最简单的重尾分布模型)模拟重尾分布,计算新的误差边界值。当网络流量分布完全模拟重尾分布时,PLC算法估计的误差边界反映了网络流量的统计特性,小于LC算法估计的误差边界,降低误报率,提高算法准确率。且由于网络流量中90-98%的流均为小流,PLC算法对误差边界的估计使它更大胆的移除小流,从而极大地减小空间消耗。但重尾分布变量具有高可变性和强烈的局部突发,且与重尾分布的尾部指数密切相关。当尾部指数变化时,网络流量分布背离重尾分布,不再适合用pareto分布模拟。因此,PLC算法估计的误差边界出现偏差,对数据流大小的估计会极不准确,误报率和漏报率增加,算法准确率下降。
可见,如何提高挖掘数据流频繁项的准确率,是当前亟待解决的技术问题。
发明内容
有鉴于此,本发明提供了一种数据流频繁项挖掘方法和装置,以便提高挖掘数据流频繁项的准确性。
本发明采用的技术方案具体是这样实现的:
一种数据流频繁项挖掘方法,该方法包括:
初始化样本表和历史信息表;
根据数据流中数据项出现的频率更新样本表和历史信息表,其中,根据历史信息表中数据项的频率信息确定该数据项在样本表中的频率信息;
根据样本表中数据项的频率信息确定数据流频繁项;
其中,在样本表中存储的信息包括:在数据流中出现的频率信息满足预定条件的数据项的信息、以及在该数据流的当前分片中出现的数据项的信息,
历史信息表中存储的信息包括:在所述数据流中出现过、且其频率信息不满足所述预定条件的数据项的信息,
所述数据项的信息包括数据项的频率信息和数据项标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团浙江有限公司,未经中国移动通信集团浙江有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110108557.3/2.html,转载请声明来源钻瓜专利网。