[发明专利]一种实时数据流查找周期性元素的方法和装置在审
申请号: | 202111479990.8 | 申请日: | 2021-12-06 |
公开(公告)号: | CN115525643A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 杨仝;樊卓宸 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/245;G06N20/00 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 数据流 查找 周期性 元素 方法 装置 | ||
本发明涉及一种实时数据流查找周期性元素的方法和装置。该方法建立基于Sketch的紧凑数据结构为PeriodicSketch,其包括两部分:Cover‑Min sketch和GSU sketch;使用Cover‑Min sketch记录和报告传入元素的时间间隔,使用GSU sketch记录和报告top‑K最有潜力的周期性元素。本发明通过使用紧凑数据结构PeriodicSketch,只需要极小的内存消耗,就可以以实时在高速的数据流中很准确地查找出所有的周期性元素,然后用户可根据自己的需求去挑选出对应的时间间隔的元素,可以用于Cache预取、检测高级持续性威胁、流量预测/分类、金融交易和用户购买等领域。
技术领域
本发明涉及紧凑数据结构、数据挖掘、数据库领域,具体为一种利用PeriodicSketch来实时在数据流中查找周期性元素的方法和装置。
背景技术
在大数据时代,数据往往以高速数据流的形式呈现。如今,数据流处理是一项重要的任务,我们需要一次性从大量的高速数据流中速提取所需的信息。由于越来越大的数据量和极其有限的内存,我们往往无法在跟上高速数据流的同时准确提取信息。基于概率数据结构(称为Sketch)可以在极小的内存消耗下实现快速而准确地查找频繁元素、查找持续性元素等等任务,但目前为止还没有任何Sketch在高速的数据流中实现查找周期性元素。
周期性元素是指以固定间隔(也就是所谓的“周期”)到达的元素,查找周期元素是报告top-K个周期性元素及其相应的间隔(周期)。例如,一件商品每天8:00到货,并持续一个月。我们可以认为它是一个周期性元素:它的周期/间隔是一天,间隔的频数是30。查找周期性元素在Cache预取(Cache Prefetching)、检测高级持续性威胁(Advanced PersistentThreat,简称APT攻击)、流量预测/分类、金融交易和用户购买等等领域都有非常潜在的应用。然而,在数据流中查找周期性元素面临的主要挑战是实时的数据流处理需要满足以下两个要求:1)每个元素最多有一次被处理的机会;2)每个元素的处理需要足够快以赶上高速的数据流,处理时间得达到O(1)时间复杂度。
目前有一些研究提出在时间序列中挖掘周期性特征(Periodic Patterns),比如TiCom、RobustPeriod、SAZED等等,但它们均不满足前面提到的两点要求,存在处理速度慢、时间复杂度高、数据结构内存空间占用大等问题。
发明内容
为了克服现有的解决方法的处理速度慢、时间复杂度高、数据结构内存空间占用大等问题,本发明提供一种使用了紧凑数据结构的方法,该方法首次实现了准确而高效地实时查找周期性元素:在高准确性、高处理速度的同时只需要很小的数据结构内存占用。
本发明的目的通过如下的技术方案来实现:
一种实时数据流查找周期性元素的方法,包括以下步骤:
建立基于Sketch的紧凑数据结构称为PeriodicSketch,PeriodicSketch包括两部分:Cover-Min sketch和GSU sketch;
使用Cover-Min sketch记录和报告传入元素的时间间隔,将元素及其时间间隔组合形成一个新元素并插入GSU sketch中,并使用GSU sketch记录和报告top-K最有潜力的周期性元素。
进一步地,本发明的第一个关键技术Cover-Min sketch用于记录和报告每个传入元素的间隔:准确计算传入元素的从现在到上次到达时间之间的时间间隔。Cover-Minsketch具有d×w个桶(可以看作d个哈希表、每个哈希表有w个桶),和d个相互独立的哈希函数与之对应:h1(.),h2(.),…,hd(.)。每个桶有两个单元格,分别记录元素e的ID和时间戳t。对于任何时间间隔V,它都可能重复多次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111479990.8/2.html,转载请声明来源钻瓜专利网。