[发明专利]混合计算系统、数据处理方法及装置在审

申请号：	201910142939.4	申请日：	2019-02-26
公开（公告）号：	CN111611221A	公开（公告）日：	2020-09-01
发明（设计）人：	张煜霞	申请（专利权）人：	北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	G06F16/182	分类号：	G06F16/182;G06F16/11
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	孙静;刘芳
地址：	100195 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	混合计算系统数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种混合计算系统、数据处理方法及装置，该混合计算系统包括分类层和计算层，计算层包括基于批处理的第一计算引擎和基于流处理的第二计算引擎；分类层用于根据计算任务对应的第一代码，获取计算任务的特征，并根据所述特征确定目标计算引擎；分类层还用于将第一代码转换为与目标计算引擎对应的第二代码，并将第二代码发送给目标计算引擎，以使目标计算引擎执行计算任务以对待处理数据进行处理；通过在混合计算系统中包括基于批处理的第一计算引擎和基于流处理的第二计算引擎，使得混合计算系统既适合执行批处理任务，也适合执行流处理任务，提高了混合计算系统的适用性。

技术领域

本发明实施例涉及大数据技术领域，尤其涉及一种混合计算系统、数据处理方法及装置。

背景技术

目前，大数据处理框架包括基于批处理的计算框架和基于流处理的计算框架。其中，基于批处理的计算框架中，以Apache Hadoop生态圈中MapReduce最典型；基于流处理的计算框架中，最典型的是Apache Storm和Samza。

批处理适用于操作大容量历史数据集，并在计算过程完成后返回结果，其优势是大规模吞吐量，缺点为高延迟；而流处理无需针对整个数据集执行操作，而是对每个数据项执行操作，适用于对实时数据的处理，流处理可以做到低时延，但是数据不够准确。

然而，各类计算任务对于吞吐量、时延和数据准确性的需求是不同的，目前基于批处理的计算框架和基于流处理的计算框架，均无法适用于各类计算任务。

发明内容

本发明实施例提供一种混合计算系统、数据处理方法及装置，能够适用于各类计算任务。

第一方面，本发明实施例提供一种混合计算系统，包括：分类层和计算层，所述计算层包括基于批处理的第一计算引擎和基于流处理的第二计算引擎；

所述分类层用于根据计算任务对应的第一代码，获取所述计算任务的特征，并根据所述特征确定目标计算引擎，所述目标计算引擎为所述第一计算引擎或者所述第二计算引擎；

所述分类层还用于将所述第一代码转换为与所述目标计算引擎对应的第二代码，并将所述第二代码发送给所述目标计算引擎，以使所述目标计算引擎执行所述计算任务以对待处理数据进行处理。

可选的，所述计算任务的特征包括下述中的至少一项：所述第一代码的时间复杂度、所述第一代码的空间复杂度、所述待处理数据的信息。