[发明专利]基于列存数据的流式数据处理方法及系统在审
申请号: | 202111306456.7 | 申请日: | 2021-11-05 |
公开(公告)号: | CN114185884A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 程学旗;郭嘉丰;李冰;邱强;张志斌 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2453;G06F16/2455;G06F16/2458;G06F16/51;G06F16/53;G06F16/31;G06F16/33;G06F16/901 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 数据处理 方法 系统 | ||
1.一种基于列存数据的流式数据处理方法,其特征在于,包括:
步骤1、获取待处理的流式数据及其对应的处理任务,基于时间维度将该流式数据切分为批式数据块,该批式数据块中每条数据均包含各自所属窗口的时间戳;
步骤2、根据该时间戳的时间类型,压缩该时间戳,根据压缩结果为该批式数据块中每条数据分配窗口序号,将该批式数据块切分为多个中间数据块,每个中间数据块仅包含窗口序号相同的数据,根据处理任务对每个中间数据块的数据进行预聚合计算,产生预聚合中间状态;
步骤3、根据预设的流式数据时间处理模式,从内部存储提取相应窗口序号的预聚合中间状态并执行与其对应的处理任务,输出各窗口序号的任务处理结果,作为流式数据处理结果。
2.如权利要求1所述的基于列存数据的流式数据处理方法,其特征在于,该步骤2包括:
判断该时间戳的时间类型是否为秒,若是,则以t/w作为该压缩结果;
否则判断该时间戳的时间类型是否为分,若是,则以t/60/w作为该压缩结果;
否则判断该时间戳的时间类型是否为小时,若是,则以t/3600/w作为该压缩结果;
否则判断该时间戳的时间类型是否为天,若是,则以(t+28800)/86400/w作为该压缩结果;
否则判断该时间戳的时间类型是否为周,若是,则以(d–4)/7/w作为该压缩结果;
否则判断该时间戳的时间类型是否为月,若是,则以to_month(d)/w作为该压缩结果;
否则判断该时间戳的时间类型是否为季度,若是,则以to_month(d)/3/w作为该压缩结果;
否则该时间戳的时间类型是否为年,以to_yead(d)/w作为该压缩结果。
3.如权利要求1所述的基于列存数据的流式数据处理方法,其特征在于,该步骤2包括:当该中间数据块的窗口序号大于水位线时,该中间数据块属于未触发的活跃数据,以内存存储该中间数据块,过程包括:
步骤21、遍历内存链表,判断窗口序号是否具有对应的链表节点,若是,则执行步骤22,否则在链表尾部依次增加链表节点,每个节点序号比上一个节点序号大一,直到链表序号等于该窗口序号,执行步骤22;
步骤22、使用树结构存储具有相同窗口序号的预聚合中间状态,以窗口序号对应的链表节点作为根节点,将预聚合中间状态追加到树的叶子节点;
步骤23、定期对该树结构进行合并,每次合并时查找深度最大的叶子节点,并将其与所有兄弟节点及父节点合并;
步骤24、重复进行步骤23,直到树结构除根节点外只剩一个节点,根节点表示树的窗口序号,其他节点为预聚合中间状态。
4.如权利要求1所述的基于列存数据的流式数据处理方法,其特征在于,该步骤2包括:当该中间数据块的窗口序号小于水位线,但大于该水位线减最大迟到允许间隔时,该中间数据块属于已触发的迟到数据,以磁盘存储该中间数据块,过程包括:
步骤25、从磁盘中查找迟到数据对应窗口序号的预聚合中间状态并加载到内存,在磁盘中将对应中间状态数据标记为待删除状态;
步骤26、将步骤25获取的预聚合中间状态与迟到数据合并,生成新的预聚合中间状态;
步骤27、删除磁盘中标记为待删除状态的预聚合中间状态删除,将步骤26生成的新的预聚合中间状态追加到磁盘。
5.如权利要求1所述的基于列存数据的流式数据处理方法,其特征在于,该流式数据为传感器实时采集的生理数据、图像数据或日志文本数据;流式数据对应的处理任务为数据库统计任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111306456.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油茶密植乔化造林方法
- 下一篇:超声波自动扫描系统及其扫描方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置