[发明专利]基于列存数据的流式数据处理方法及系统在审

专利信息
申请号: 202111306456.7 申请日: 2021-11-05
公开(公告)号: CN114185884A 公开(公告)日: 2022-03-15
发明(设计)人: 程学旗;郭嘉丰;李冰;邱强;张志斌 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2453;G06F16/2455;G06F16/2458;G06F16/51;G06F16/53;G06F16/31;G06F16/33;G06F16/901
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国
地址: 100080 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 数据 数据处理 方法 系统
【权利要求书】:

1.一种基于列存数据的流式数据处理方法,其特征在于,包括:

步骤1、获取待处理的流式数据及其对应的处理任务,基于时间维度将该流式数据切分为批式数据块,该批式数据块中每条数据均包含各自所属窗口的时间戳;

步骤2、根据该时间戳的时间类型,压缩该时间戳,根据压缩结果为该批式数据块中每条数据分配窗口序号,将该批式数据块切分为多个中间数据块,每个中间数据块仅包含窗口序号相同的数据,根据处理任务对每个中间数据块的数据进行预聚合计算,产生预聚合中间状态;

步骤3、根据预设的流式数据时间处理模式,从内部存储提取相应窗口序号的预聚合中间状态并执行与其对应的处理任务,输出各窗口序号的任务处理结果,作为流式数据处理结果。

2.如权利要求1所述的基于列存数据的流式数据处理方法,其特征在于,该步骤2包括:

判断该时间戳的时间类型是否为秒,若是,则以t/w作为该压缩结果;

否则判断该时间戳的时间类型是否为分,若是,则以t/60/w作为该压缩结果;

否则判断该时间戳的时间类型是否为小时,若是,则以t/3600/w作为该压缩结果;

否则判断该时间戳的时间类型是否为天,若是,则以(t+28800)/86400/w作为该压缩结果;

否则判断该时间戳的时间类型是否为周,若是,则以(d–4)/7/w作为该压缩结果;

否则判断该时间戳的时间类型是否为月,若是,则以to_month(d)/w作为该压缩结果;

否则判断该时间戳的时间类型是否为季度,若是,则以to_month(d)/3/w作为该压缩结果;

否则该时间戳的时间类型是否为年,以to_yead(d)/w作为该压缩结果。

3.如权利要求1所述的基于列存数据的流式数据处理方法,其特征在于,该步骤2包括:当该中间数据块的窗口序号大于水位线时,该中间数据块属于未触发的活跃数据,以内存存储该中间数据块,过程包括:

步骤21、遍历内存链表,判断窗口序号是否具有对应的链表节点,若是,则执行步骤22,否则在链表尾部依次增加链表节点,每个节点序号比上一个节点序号大一,直到链表序号等于该窗口序号,执行步骤22;

步骤22、使用树结构存储具有相同窗口序号的预聚合中间状态,以窗口序号对应的链表节点作为根节点,将预聚合中间状态追加到树的叶子节点;

步骤23、定期对该树结构进行合并,每次合并时查找深度最大的叶子节点,并将其与所有兄弟节点及父节点合并;

步骤24、重复进行步骤23,直到树结构除根节点外只剩一个节点,根节点表示树的窗口序号,其他节点为预聚合中间状态。

4.如权利要求1所述的基于列存数据的流式数据处理方法,其特征在于,该步骤2包括:当该中间数据块的窗口序号小于水位线,但大于该水位线减最大迟到允许间隔时,该中间数据块属于已触发的迟到数据,以磁盘存储该中间数据块,过程包括:

步骤25、从磁盘中查找迟到数据对应窗口序号的预聚合中间状态并加载到内存,在磁盘中将对应中间状态数据标记为待删除状态;

步骤26、将步骤25获取的预聚合中间状态与迟到数据合并,生成新的预聚合中间状态;

步骤27、删除磁盘中标记为待删除状态的预聚合中间状态删除,将步骤26生成的新的预聚合中间状态追加到磁盘。

5.如权利要求1所述的基于列存数据的流式数据处理方法,其特征在于,该流式数据为传感器实时采集的生理数据、图像数据或日志文本数据;流式数据对应的处理任务为数据库统计任务。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111306456.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top