[发明专利]一种实时数据处理方法及装置有效
申请号: | 201910644077.5 | 申请日: | 2019-07-17 |
公开(公告)号: | CN110334117B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 张盛宇;刘超;刘金钊;姚战伟;李昌志;张嘉欢 | 申请(专利权)人: | 北京长亭未来科技有限公司 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/2455 |
代理公司: | 深圳睿臻知识产权代理事务所(普通合伙) 44684 | 代理人: | 张海燕 |
地址: | 100024 北京市朝阳区管*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 数据处理 方法 装置 | ||
本发明实施例公开了一种实时数据处理方法及装置,所述方法包括:根据预设规则将第一数据分组分为N组子数据分组;获取第一数据分组的聚合结果和每个子数据分组的聚合结果;根据所述第一数据分组的聚合结果和每个子数据分组的聚合结果计算第二数据分组的聚合结果。本发明公开的技术方案可有效解决Flink在巨大滑动窗口下聚合性能过差的问题。
技术领域
本发明涉及数据处理技术领域,具体涉及一种实时数据处理方法及装置。
背景技术
随着互联网的蓬勃发展,企业对业务的实时性要求越来越高,流处理的概念应运而生,开源社区也陆续给出了相应的解决方案。
Apache Flink是一个流处理引擎,有如下特性:支持任务管理,允许下发,中止统计任务,真正的流处理,数据不必落盘,纯内存计算,秒或毫秒级别的实时性,支持基于窗口的统计,支持使用SQL语法自定义统计逻辑,支持集群化部署,Flink已经成为了开源社区里最成熟的实时流处理方案;但Flink并非没有缺点:Flink对巨大滑动窗口的聚合性能很差,Flink并没有明显地区分滚动窗口和滑动窗口,其聚合操作对每个窗口来说是独立的,假设某个统计任务需要每1秒计算一次1小时内所有元素的总数,那么Flink需要同时维护3600个窗口,并且每秒计算一次最旧的窗口中的元素个数,由此带来的空间和时间的开销非常大。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的第一个方面,提供了一种实时数据处理方法,其特征在于,包括:根据预设规则将第一数据分组分为N组子数据分组;获取第一数据分组的聚合结果和每个子数据分组的聚合结果;根据所述第一数据分组的聚合结果和每个子数据分组的聚合结果计算第二数据分组的聚合结果。
由于现有技术中的数据的统计任务之间是互相隔离的,无法在任务间共享计算结果,也无法避免任务间的冗余计算。本发明使用滑动增量聚合的方式避免聚合滑动窗口带来的额外开销,解决Flink在巨大滑动窗口下聚合性能过差的问题。
根据本申请的第二个方面,还提供了一种实时数据处理装置,其特征在于,包括:划分模块,用于根据预设规则将第一数据分组分为N组子数据分组;获取模块,用于获取第一数据分组的聚合结果和每个子数据分组的聚合结果;计算模块,用于根据所述第一数据分组的聚合结果和每个子数据分组的聚合结果计算第二数据分组的聚合结果。
由于现有技术中的数据的统计任务之间是互相隔离的,无法在任务间共享计算结果,也无法避免任务间的冗余计算。本发明使用滑动增量聚合的方式避免聚合滑动窗口带来的额外开销,解决Flink在巨大滑动窗口下聚合性能过差的问题。
根据本申请的第三个方面,还提供了一种计算机设备,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的方法。
根据本申请的第四个方面,还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令用于执行如上所述的方法。
与现有技术相比,本发明实施例具有以下优点:
本发明实施例公开了一种实时数据处理方法及装置,在进行数据计算时,通过相关算法使数据计算时聚合能力强,提高了数据计算的效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解的是,这些附图未必是按比例绘制的。在附图中:
图1为本发明实施例中公开的一种实时数据处理方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京长亭未来科技有限公司,未经北京长亭未来科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910644077.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多粒度决策系统的最优客体粒度确定方法
- 下一篇:数据查询方法及装置