[发明专利]一种实时数据流查找周期性元素的方法和装置在审

专利信息
申请号: 202111479990.8 申请日: 2021-12-06
公开(公告)号: CN115525643A 公开(公告)日: 2022-12-27
发明(设计)人: 杨仝;樊卓宸 申请(专利权)人: 北京大学
主分类号: G06F16/22 分类号: G06F16/22;G06F16/245;G06N20/00
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 100871 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 实时 数据流 查找 周期性 元素 方法 装置
【权利要求书】:

1.一种实时数据流查找周期性元素的方法,其特征在于,包括以下步骤:

建立基于Sketch的紧凑数据结构,其包括两部分,第一部分数据结构是Cover-Minsketch,第二部分数据结构是GSU sketch;

利用Cover-Min sketch记录和报告传入元素的时间间隔,然后将元素及其时间间隔组合形成一个新元素并插入GSU sketch中,利用GSU sketch记录和报告top-K的周期性元素。

2.根据权利要求1所述的方法,其特征在于,所述Cover-Min sketch共有d个数组,每个数组由w个桶组成,每个数组有一个对应的哈希函数,共有d个相互独立的哈希函数;每个桶有两个单元格,分别记录元素e的ID和时间戳t;所述GSU sketch由u个桶组成,并与一个哈希函数h(.)相关联;每个桶都有p个单元格,每个单元格存储一个新元素ID,V和它的频数f,频数f是时间间隔V的出现次数。

3.根据权利要求2所述的方法,其特征在于,所述Cover-Min sketch中元素的插入操作包括:当输入一个即将到来的元素及其时间戳时,计算关联的d个哈希函数,并映射到每个哈希表的其中一个桶里,总共被映射到d个桶,然后将每个映射的桶中的时间戳重写为当前时间。

4.根据权利要求3所述的方法,其特征在于,所述Cover-Min sketch中元素的报告操作包括:对于当前元素及其时间戳,计算关联的d个哈希函数,从d个桶中提取其中的d个时间戳;用当前时间戳t减上述d个时间戳中最小的时间戳min_t,得到当前的时间间隔V,即V=t-min_t,并和该元素一起报告。

5.根据权利要求4所述的方法,其特征在于,所述GSU sketch中新元素的插入操作包括:对于传入的元素,首先查询Cover-Min sketch得到的时间间隔V,然后将元素的ID和它的时间间隔V组合起来形成一个新元素ID,V,然后通过哈希函数h(.)将该新元素映射到其中一个桶中,该桶设为桶j;新元素的插入有两种情况:

其一,桶j的有单元格已经存有这个新元素,在这种情况下,将频数f直接增加1;

其二,新元素不在桶j中,分为两个子情况:1)如果桶j未满,直接将新元素插入桶j的任意一个空单元格中,并设置其频数为f=1;2)如果桶j已满,尝试通过替换策略来替换桶j里的频数最小的元素,即用一个替换概率P替换桶j里的频数最小的元素,以确保在哈希表中的元素越来越接近真正的周期性元素。

6.根据权利要求5所述的方法,其特征在于,所述替换概率P的表达式为:P=1/(2×fm-tf+1),其中tf是替换失败的次数,fm是桶j里的频数最小的元素的频数。

7.根据权利要求1所述的方法,其特征在于,所述GSU sketch中新元素的报告操作包括:直接遍历GSU sketch的桶,并返回具有top-K最大频数的新元素。

8.一种采用权利要求1~7中任一权利要求所述方法的实时数据流查找周期性元素的装置,其特征在于,包括:

Cover-Min sketch模块,用于记录和报告传入元素的时间间隔,然后将元素及其时间间隔组合起来形成一个新元素并插入GSU sketch模块中;

GSU sketch模块,用于记录和报告top-K的周期性元素。

9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一权利要求所述的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111479990.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top