[发明专利]一种数据处理方法、装置及设备在审

申请号：	201910213125.5	申请日：	2019-03-20
公开（公告）号：	CN111723161A	公开（公告）日：	2020-09-29
发明（设计）人：	王烨;周祥	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/28	分类号：	G06F16/28;G06F16/2455;G06F16/2458
代理公司：	北京博思佳知识产权代理有限公司 11415	代理人：	林祥
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种数据处理方法、装置及设备，该方法包括：获取数据处理请求，所述数据处理请求包括数据源的位置信息；根据所述位置信息从数据源的数据集中获取属性信息；所述数据源包括多个数据集，所述数据集包括所述数据集的属性信息；根据所述属性信息创建数据表，所述数据表对应至少一个数据集，将所述至少一个数据集对应的元信息与所述数据表进行关联；利用所述数据表和所述数据表关联的元信息进行数据处理。通过本申请的技术方案，可以自动关联元信息与数据表，从而减少用户的工作量，提高用户体验。

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、装置及设备。

背景技术

数据湖分析(Data Lake Analytics)用于为用户提供无服务器化(Serverless)的查询分析服务，能够对海量的数据进行任意维度的分析和查询，并可以支持高并发、低延时(毫秒级响应)、实时在线分析、海量数据查询等功能。

在传统的关系型数据库中，如果用户需要使用数据库进行查询和分析，则进行如下操作：创建数据库；创建Table(数据表)，Table是指关联和维护所有同构记录的集合；将数据导入到Table；基于Table中的数据进行查询和分析。在数据湖分析系统中，其提供的是云关系型数据库，与传统的关系型数据库不同的是，如果用户需要使用数据库进行查询和分析，则进行如下操作：创建Table，将Table映射到当前所属数据源的部分数据集；基于Table进行查询和分析。

综上可以看出，在传统的关系型数据库中，是先创建Table，然后，将数据导入到Table；在云关系型数据库中，是在已有数据的基础上，创建Table，但是，不需要将数据导入到Table，只需要将Table与数据进行映射即可。

显然，在云关系型数据库中，核心工作之一就是如何实现映射。在传统方式中，为了实现映射，则可以采用如下方式：由用户指定Table与数据的映射关系，也就是说，由用户给出数据的元信息，并将该元信息与Table绑定。但是，由用户给出元信息时，用户的工作量很大，而且容易出错，用户体验较差。

发明内容

本申请提供一种数据处理方法，所述方法包括：

获取数据处理请求，所述数据处理请求包括数据源的位置信息；

根据所述位置信息从所述数据源的数据集中获取属性信息；其中，所述数据源包括多个数据集，且所述数据集包括所述数据集的属性信息；

根据所述属性信息创建数据表，所述数据表对应至少一个数据集，并将所述至少一个数据集对应的元信息与所述数据表进行关联；

利用所述数据表和所述数据表关联的元信息进行数据处理。

本申请提供一种数据处理方法，应用于数据湖分析平台，所述数据湖分析平台用于为用户提供无服务器化的数据处理服务，所述方法包括：

获取数据处理请求，所述数据处理请求包括数据源的位置信息；

根据所述位置信息从所述数据源的数据集中获取属性信息；其中，所述数据源包括多个数据集，且所述数据集包括所述数据集的属性信息；

根据所述属性信息创建数据表，所述数据表对应至少一个数据集，并将所述至少一个数据集对应的元信息与所述数据表进行关联；