[发明专利]混合计算系统、数据处理方法及装置在审
申请号: | 201910142939.4 | 申请日: | 2019-02-26 |
公开(公告)号: | CN111611221A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 张煜霞 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/11 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 孙静;刘芳 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 混合 计算 系统 数据处理 方法 装置 | ||
本发明实施例提供一种混合计算系统、数据处理方法及装置,该混合计算系统包括分类层和计算层,计算层包括基于批处理的第一计算引擎和基于流处理的第二计算引擎;分类层用于根据计算任务对应的第一代码,获取计算任务的特征,并根据所述特征确定目标计算引擎;分类层还用于将第一代码转换为与目标计算引擎对应的第二代码,并将第二代码发送给目标计算引擎,以使目标计算引擎执行计算任务以对待处理数据进行处理;通过在混合计算系统中包括基于批处理的第一计算引擎和基于流处理的第二计算引擎,使得混合计算系统既适合执行批处理任务,也适合执行流处理任务,提高了混合计算系统的适用性。
技术领域
本发明实施例涉及大数据技术领域,尤其涉及一种混合计算系统、数据处理方法及装置。
背景技术
目前,大数据处理框架包括基于批处理的计算框架和基于流处理的计算框架。其中,基于批处理的计算框架中,以Apache Hadoop生态圈中MapReduce最典型;基于流处理的计算框架中,最典型的是Apache Storm和Samza。
批处理适用于操作大容量历史数据集,并在计算过程完成后返回结果,其优势是大规模吞吐量,缺点为高延迟;而流处理无需针对整个数据集执行操作,而是对每个数据项执行操作,适用于对实时数据的处理,流处理可以做到低时延,但是数据不够准确。
然而,各类计算任务对于吞吐量、时延和数据准确性的需求是不同的,目前基于批处理的计算框架和基于流处理的计算框架,均无法适用于各类计算任务。
发明内容
本发明实施例提供一种混合计算系统、数据处理方法及装置,能够适用于各类计算任务。
第一方面,本发明实施例提供一种混合计算系统,包括:分类层和计算层,所述计算层包括基于批处理的第一计算引擎和基于流处理的第二计算引擎;
所述分类层用于根据计算任务对应的第一代码,获取所述计算任务的特征,并根据所述特征确定目标计算引擎,所述目标计算引擎为所述第一计算引擎或者所述第二计算引擎;
所述分类层还用于将所述第一代码转换为与所述目标计算引擎对应的第二代码,并将所述第二代码发送给所述目标计算引擎,以使所述目标计算引擎执行所述计算任务以对待处理数据进行处理。
可选的,所述计算任务的特征包括下述中的至少一项:所述第一代码的时间复杂度、所述第一代码的空间复杂度、所述待处理数据的信息。
可选的,所述第一计算引擎为Apache Spark,所述第二计算引擎为Apache Flink。
可选的,所述混合计算系统还包括:
存储层,用于分布式存储所述待处理数据。
可选的,所述存储层包括分布式文件存储系统HDFS和分布式内存存储系统Alluxio。
可选的,所述混合计算系统还包括:
资源管理层,用于对所述第一计算引擎和所述第二计算引擎执行所述计算任务所需的资源进行管理和调度。
可选的,所述资源管理层包括Yarn资源管理系统。
可选的,所述混合计算系统还包括:
输入层,用于获取所述计算任务对应的第一代码。
第二方面,本发明实施例提供一种数据处理方法,包括:
根据计算任务对应的第一代码,获取所述计算任务的特征,并根据所述特征确定目标计算引擎,所述目标计算引擎为所述第一计算引擎或者所述第二计算引擎,所述第一计算引擎用于批处理,所述第二计算引擎用于流处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910142939.4/2.html,转载请声明来源钻瓜专利网。