[发明专利]一种分布式大数据计算引擎及架构方法有效
申请号: | 201810919696.6 | 申请日: | 2018-08-14 |
公开(公告)号: | CN109189589B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 程捷;张念礼;罗俊 | 申请(专利权)人: | 北京博睿宏远数据科技股份有限公司 |
主分类号: | G06F9/54 | 分类号: | G06F9/54;H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100027 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 数据 计算 引擎 架构 方法 | ||
本发明公开了一种分布式大数据计算引擎及架构方法。计算引擎包括:分布式协调服务集群,用于为分布式应用提供协调服务、保存相关插件程序和业务数据库对象集合Schema配置文件;消息中间集群,用于传输不同类型的业务数据,所述业务数据包括原始数据、计算结果、快照数据、基线数据和报警数据;流式计算集群,基于Storm的底层计算框架,用于将时序指标大数据处理过程抽象为若干流程;可视化控制模块,用于将数据通过web的方式进行展现和管理;数据缓存集群,用于降低大批量计算时对流式计算集群内存的开销。本发明可以帮助大数据技术积累较少的企业,或者项目周期和人力紧张的项目团队便捷快速的实现海量时序指标数据的在线流式处理。
技术领域
本发明涉及计算引擎架构,尤其涉及一种分布式大数据计算引擎及架构方法。
背景技术
目前越来越多的企业都认识到了大数据对于自身未来发展的重要性,于是纷纷开始使用并逐渐依赖大数据处理相关技术。但随着需要处理数据越来越多,业务场景也越发复杂,在实际执行过程中也遇到了很多问题,如大数据人才紧缺、导致人力成本高,相关技术缺乏沉淀,短期内又难以培养一支较为成熟的大数据团队,同时不同业务部门的业务需求繁多且各异,导致不同项目代码重复开发、重复造轮子、项目技术架构五花八门的情况也较为常见,给后期维护和迭代带来很大的挑战。
随着大数据处理技术的发展和成熟,由于以上的现实问题,我们认为有必要基于博睿数据过往众多实际大数据项目经验,抽象和设计出一套灵活轻便、场景通用、稳定高效的统一大数据处理引擎框架来解决这些问题。
现有技术中,大数据处理引擎完全基于内存计算,吞吐量不如传统批量计算框架,如Spark、MapReduce等;且其内置聚合时间粒度固定,无法变更,也无法支持天粒度以上更大粒度聚合;对MQ的支持仅限于Kafka,后期可考虑支持其他MQ;此外,现有技术仅适合做结构化时序指标数据处理,对其他如非结构化大数据处理场景并不支持。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种架负责范围包括原始数据预处理、准实时计算、多种时间粒度批量计算、数据落地及各种容错处理的分布式大数据计算引擎及架构方法。
为了解决以上技术问题,本发明采用的技术方案是:一种分布式大数据计算引擎,包括:
分布式协调服务集群,用于为分布式应用提供协调服务、保存相关插件程序和业务数据库对象集合Schema配置文件,所述协调服务包括配置服务、分布式同步、节点监控;
消息中间集群,为一个分布式的、支持多分区的、多副本的,基于的分布式消息系统,用于传输不同类型的业务数据,所述业务数据包括原始数据、计算结果、快照数据、基线数据和报警数据;
流式计算集群,基于Storm的底层计算框架,用于将时序指标大数据处理过程抽象为以下几个主要流程:预处理、准实时计算、小批量计算、大批量计算、落地入库;流式计算集群包括预处理拓扑、统计拓扑、存储拓扑;
可视化控制模块,用于将数据通过web的方式进行展现和管理;
数据缓存集群,为流式计算集群辅助内存存储集群,用于降低大批量计算时对流式计算集群内存的开销。
进一步地,所述流式计算集群中:
预处理拓扑用于从消息中间集群订阅原始数据源并对数据进行预处理,将预处理结果进行准实时聚合处理;
统计拓扑用于对预处理之后的数据进行按不同时间粒度的批量聚合,包括两个子计算拓扑:小批量计算拓扑和大批量计算拓扑。
存储拓扑用于语言数据落地入库,对于最终计算结果落地提供基本框架支持;落地数据包括时序指标数据和快照文件数据两种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京博睿宏远数据科技股份有限公司,未经北京博睿宏远数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810919696.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置