[发明专利]一种多源异构数据导入数据湖的方法在审
申请号: | 201811438360.4 | 申请日: | 2018-11-27 |
公开(公告)号: | CN111221791A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 陈刚 | 申请(专利权)人: | 中云开源数据技术(上海)有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/16;G06F16/176 |
代理公司: | 上海元好知识产权代理有限公司 31323 | 代理人: | 张妍;刘琰 |
地址: | 201300 上海市浦东新区南*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源异构 数据 导入 方法 | ||
1.一种多源异构数据导入数据湖的方法,其特征在于,该方法包含以下过程:
获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的数据,并以数据文件的形式保存到本地数据湖服务器的分布式文件系统中,其中,所述外部数据源包含外部数据库和外部流数据源;
和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,将外部数据源的非关系型数据转换成关系型数据后保存到本地数据湖服务器的关系型数据库中或直接导入该外部数据源的关系型数据,并保存到本地数据湖服务器的关系型数据库中;
和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的非关系型数据,并保存到地数据湖服务器的文档型数据库中;
和/或,获取外部的文件型数据的访问接口地址,直接导入该外部的文件型数据,并保存到本地数据湖服务器的分布式文件系统中。
2.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
所述获取外部数据源的访问接口信息是指获得外部数据源接口的IP地址、端口号、用户名和密码中的一种或多种。
3.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
用户可分享自己存在所述分布式文件系统中的数据文件给其他用户,进一步包含:
用户在注册到数据湖服务器时拥有分享权限,有权分享自己导入到分布式文件系统的数据文件给其他用户;
各类数据源可由不同用户导入,默认情况下每个用户仅能看到自己导入的数据文件;
当数据文件在分布式文件系统时,用户可分享该数据文件;
用户可为自己导入的数据文件设置包含私有的权限、组内可见的权限和公开的权限在内的各类权限,用户的各类权限由数据湖服务器的管理员设置。
4.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
所述数据湖服务器是包含关系型数据库、文档型数据库、分布式文件系统和图数据库这四类数据库的数据存储和管理服务平台,该平台采用分布式运算和存储架构,集成了具有数据存储和运算功能的各类计算机单机、服务器和计算机集群/服务器集群,并提供包括数据管理、算法开发在内的各类功能组件。
5.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
所述本地数据湖服务器将外部数据库的数据或外部流数据或外部的文件型数据导入本地数据湖服务器的操作过程以及相关的操作参数保存到本地数据湖服务器的文档型数据库中,用于追踪数据处理和日志分析;
本地数据湖服务器的数据交换管理可基于保存在文档型数据库中的日志记录数据和文件元数据,所述日志记录数据以键值对的形式存在,所述文件元数据以键值对的形式存在。
6.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,进一步包含:
选择要载入的外部数据源的数据字段,将选中的数据字段的数据以数据文件形式保存到本地数据湖服务器的分布式文件系统中;
其中,所述选择要载入的外部数据源的数据字段是指在本地数据湖服务器与外部数据源连接之后,用户在本地数据湖服务器的管理界面看到外部数据源的字段信息,并进一步选择打算导入的数据字段;其中,用户可选择全部数据字段,用户选择的字段对应的数据会在下一步复制数据到本地数据湖服务器时被导入。
7.如权利要求1或6所述的多源异构数据导入数据湖的方法,其特征在于,进一步包含:
外部数据源的数据复制为本地数据湖服务器的分布式文件系统中的文件之后或者复制到本地数据湖服务器的关系型数据库/文档型数据库之后,用户可进一步查看数据文件的各个字段的数据,执行数据清洗操作;
所述用户根据实际需要,将清洗后的数据导入到本地数据湖服务器的关系型数据库中或将清洗后的数据保存到本地数据湖服务器的文档型数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中云开源数据技术(上海)有限公司,未经中云开源数据技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811438360.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置