[发明专利]一种数据流频繁项挖掘方法和装置有效
申请号: | 201110108557.3 | 申请日: | 2011-04-28 |
公开(公告)号: | CN102760132A | 公开(公告)日: | 2012-10-31 |
发明(设计)人: | 徐良 | 申请(专利权)人: | 中国移动通信集团浙江有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张驰;宋志强 |
地址: | 310006 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据流 频繁 挖掘 方法 装置 | ||
1.一种数据流频繁项挖掘方法,其特征在于,该方法包括:
初始化样本表和历史信息表;
根据数据流中数据项出现的频率,更新样本表和历史信息表,其中,根据历史信息表中数据项的频率信息确定该数据项在样本表中的频率信息;
根据样本表中数据项的频率信息确定数据流频繁项;
其中,在样本表中存储的信息包括:在数据流中出现的频率信息满足预定条件的数据项的信息、以及在该数据流的当前分片中出现的数据项的信息,
历史信息表中存储的信息包括:在所述数据流中出现过、且其频率信息不满足所述预定条件的数据项的信息,
所述数据项的信息包括数据项的频率信息和数据项标识。
2.根据权利要求1所述的方法,其特征在于,根据数据流中数据项出现的频率,更新样本表和历史信息表包括:
在每一分片结束时,从样本表中删除频率信息不满足所述预定条件的数据项的信息,利用从样本表中删除的数据项信息更新历史信息表中的数据项信息。
3.根据权利要求2所述的方法,其特征在于,
样本表中存储的数据项信息包括:该数据项的流标识e、频率估计值和误差边界值Δ;
历史信息表中存储的数据项信息包括:该数据项的流标识e、该数据项的信息被存入历史信息表时该数据项所在的数据流分片索引i′、该数据项的信息被从样本表中删除时该数据项在样本表中的频率估计值与误差边界值之和f;
所述根据历史信息表中数据项的频率信息确定该数据项在样本表中的频率信息包括:
在当前分片中的数据项未出现在样本表中,但是出现在历史信息表中时,将该数据项在样本表中的频率估计值记为1,误差边界值Δ记为qi-i′f,其中,i是当前数据流分片的索引号,q是根据数据流分片之间的联系紧密程度预先设定的平滑参数,0≤q<1。
4.根据权利要求3所述的方法,其特征在于,所述利用从样本表中删除的数据项信息更新历史信息表中的数据项信息包括:
在历史信息表当前的数据项个数与当前从样本表中删除的数据项个数之和大于历史信息表最大能够存储的数据项个数时,在历史信息表当前的数据项信息和当前从样本表中删除的数据项信息中选择qi-i′f最小的n个数据项信息,删除所述n个数据项信息;
其中,n是本次更新前历史信息表中的数据项个数与当前从样本表中删除的数据项个数之和减去历史信息表最大能够存储的数据项个数所得的差。
5.根据权利要求4所述的方法,其特征在于,该方法还包括:
在当前分片结束时,从所述n个数据项信息中选择最大的qi-i′f作为下一个分片的误差边界值。
6.根据权利要求5所述的方法,其特征在于,所述根据历史信息表中数据项的频率信息确定该数据项在样本表中的频率信息包括:
在当前分片中的数据项未出现在样本表中,且未出现在历史信息表中时,将样本表中该数据项的频率估计值记为1,误差边界值Δ记为上一分片结束时计算的误差边界值。
7.根据权利要求3所述的方法,其特征在于,
在当前分片的数据项出现在样本表中时,将样本表中该数据项的频率估计值加1。
8.根据权利要求2所述的方法,其特征在于,所述从样本表中删除频率信息不满足所述预定条件的数据项的信息包括:
将样本表中频率估计值和误差边界值Δ之和小于或等于当前分片的索引号的数据项信息从样本表中删除。
9.根据权利要求3所述的方法,其特征在于,
所述初始化样本表和历史信息表包括:将样本表和历史信息表初始化为空;
在根据数据流中数据项出现的频率更新样本表和历史信息表之前,该方法还包括:将所述误差边界值Δ初始化为0。
10.根据权利要求3所述的方法,其特征在于,
N是所述数据流的长度,w是该数据流的分片的长度,w是1/ε向上取整所得的结果,ε是指定的误差参数,0<ε<1。
11.根据权利要求10所述的方法,其特征在于,所述根据样本表中数据项的频率信息确定数据流频繁项包括:
将样本表中的频率信息满足的数据项确定为数据流频繁项,其中,s是指定的支持度,0<s<1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团浙江有限公司,未经中国移动通信集团浙江有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110108557.3/1.html,转载请声明来源钻瓜专利网。