[发明专利]数据处理系统中的作业管理在审

申请号：	201880071895.4	申请日：	2018-12-06
公开（公告）号：	CN111295648A	公开（公告）日：	2020-06-16
发明（设计）人：	杨经伟;S·玛哈特玛;R·常德拉;K·特兰;D·蔚;K·纳特桑拉玛穆尔西;G·约恩-瑞尔德	申请（专利权）人：	国际商业机器公司
主分类号：	G06F16/00	分类号：	G06F16/00
代理公司：	中国国际贸易促进委员会专利商标事务所 11038	代理人：	刘玉洁
地址：	美国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理系统中的作业管理
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

提供了模块化的数据处理系统及其使用方法。处理当前作业可在两个共享参数配置的程度上重用针对先前处理的作业生成的数据。类似地，如果两个作业共享一些参数配置，则在处理先前处理的作业期间生成的处理模块的输出可用作处理当前作业的处理模块的输入。

背景技术

本发明的实施例一般涉及数据建模和机器学习，并且更具体地涉及用于数据建模和机器学习的数据处理流水线中的作业(job)管理。

一种数据处理系统，例如预测数据建模系统或机器学习系统，处理一个或多个作业。作业是指用于由应用编程接口(API)处理的一组数据和一组参数配置；API包括一组编程指令，用于处理由作业参数配置控制的作业数据集，以实现数据处理目标(例如，生成数据模型)。作业的参数配置可以在参数文件中定义。该组参数配置可以被认为是作业的一部分或与作业相关联。作业配置的一个示例是它执行所需的特定API、API应当处理的数据集以及其他处理配置。

数据科学家经常通过用不同配置和数据集处理作业来实验性地与数据处理系统交互。基于从参数配置的差异获得的处理结果，数据科学家可以得出关于他们分析的数据的洞察。例如，数据科学家可以用不同的参数配置来实验性地执行许多工作，以识别影响处理结果的数据特征集。参数配置的一些差异可能对结果具有高影响；一些可能具有低影响；其它的可能没有影响。使用观察到的变化，数据科学家可以设计预测数据模型，并且他们可以引导机器学习过程用于特定目的。

发明内容

本发明的实施例提供了用于在数据处理平台上处理作业的方法、计算机程序产品和系统。根据本发明的一个方面，数据处理平台接收用于处理的第一作业。所述第一作业具有用于由所述数据处理平台的处理流水线执行所述第一作业的一组参数配置。所述数据处理平台经由所述处理流水线的一个或多个处理模块执行所述第一作业的至少一部分。执行包括使用至少一个数据碎片，其中数据碎片是在第二作业的一部分的执行期间生成的来自数据库的数据的分区，并且还包括使用所述一个或多个处理模块中的至少一个处理模块的输出，所述输出在所述第二作业的一部分的执行期间生成。

根据本发明的一个方面，在执行所述第一作业的任何部分之前，处理所述第二作业的一个或多个部分。

根据本发明的一个方面，所述处理模块包括一个或多个应用编程接口(API)。

根据本发明的一方面，由所述数据处理系统处理的作业的参数配置在与所述作业相关联的相应参数文件中定义。

根据本发明的一个方面，包括在所述第二作业的一部分的执行期间生成的所述至少一个数据碎片的数据碎片由中央数据服务管理。

根据本发明的一个方面，中央数据服务被虚拟化。

根据本发明的一个方面，中央数据服务包括中央数据储存库和中央元数据储存库。

根据本发明的一个方面，所述中央元数据储存库包括用于存储在中央数据储存库中的数据碎片(分区)的一组元数据文件，并且还包括用于处理流水线的处理模块的输出的附加的一组元数据文件。

根据本发明的一个方面，数据处理系统从数据碎片的元数据文件中指示的位置拉取在第二作业的所述部分的执行期间生成的至少一个数据碎片，并且从原始数据源拉取未由已知数据碎片定义的任何数据。

根据本发明的一方面，拉取所述至少一个数据碎片以及拉取未由已知数据碎片定义的数据是基于经由图形用户界面(GUI)的用户选择而触发的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国际商业机器公司，未经国际商业机器公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】