[发明专利]数据采集交换引擎有效
申请号: | 201611155430.6 | 申请日: | 2016-12-14 |
公开(公告)号: | CN106599197B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 王志安;张伟;田海均;谭红涛;胡均;谢佳 | 申请(专利权)人: | 深圳天源迪科信息技术股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 深圳市德力知识产权代理事务所 44265 | 代理人: | 林才桂 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 采集 交换 引擎 | ||
本发明提供一种数据采集交换引擎,其根据数据采集交换的特点设置配置参数,用户根据需求在控制中心填写配置参数,控制中心即可根据预设的编译规则自动将用户填写的配置参数编译成配置程序,再依据配置程序选定数据交换工具以及安装有该数据交换工具的执行器,并通过通讯与协调模块将配置程序从控制中心发送到选定的执行器,再由所述执行器将配置程序编译成选定的数据交换工具能够识别的执行程序,利用该执行程序驱动选定的数据交换工具进行数据采集交换,将来源数据模型中数据的采集交换到目标数据模型中,通过智能选择数据交换工具,自动完成数据采集交换,能够简化用户操作,降低数据采集交换难度,提升数据采集交换效率。
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据采集交换引擎。
背景技术
信息科技经过60多年的发展,已渗透到各行业的方方面面。政治、经济活动中很大一部分的活动都与数据的创造、采集、传输和使用相关,随着网络应用日益深化,大数据应用的影响日益扩大。根据机构测算,全世界数据总量以每两年翻一番的速度递增。换句话说,最近两年产生的数据总量相当于人类有史以来所有数据量的总和。在这个背景下,从公司战略到产业生态,从学术研究到生产实践,从城镇管理乃至国家治理,都将发生本质的变化。
大数据指的是大小超出常规的数据工具获取、存储、管理和分析能力的数据集,并不是说一定要超过特定TB值得数据集才能算是大数据。国际数据公司(IDC)从四个特征定义大数据,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。大数据几乎渗透到国民经济的所有部门,应用领域涉及信息服务、智慧城市、金融、制造业、国家安全和科学研究等。
随时时代的发展,大数据数据处理和存储引擎不断增多,一种大数据引擎往往满足于某一场景的需求,比如hdfs做分布式文件存储,hive做批处理,hbase做清单查询,redis做内存数据库等。每种引擎都有缺点,比如:hive不适合在线分析查询,redis不适合做大数据量的存储,hbase不适合做批处理分析,大数据平台往往是各种引擎组合在一起,互取所长,共同完成一个大数据处理系统。这样的背景下,数据往往会冗余存储于hive、hbase、redis、ftp、hdfs、sftp、elasticsearch、oracle、以及mysql等各个不同数据环境中,因此,各个引擎之间数据的采集交换也就显得尤为重要。
目前,主流的数据采集交换工具有datax、sqoop、flume以及embulk等,其中,DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换,Sqoop是协助用户在RDBMS与Hadoop之间进行高效的大数据交流的数据交换工具,用户可以在Sqoop的帮助下,可以轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中,同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Flume是一个能够将不同数据源的海量日志数据进行高效收集、聚合和移动,最后存储到一个中心化数据存储系统中的数据交换工具。Embulk是一个开源的批量数据交换工具,用来在不同数据库、存储设备、文件格式以及云服务间转移数据。
上述的各种数据交换工具的使用方法各有不同,擅长的数据交换场景也各有不同,Sqoop采用shell命令方式,datax采用配置文件,flume采用conf配置文件,原理深奥,各工具学习成本较高,如遇到问题,需了解其底层原理进行调试,如使用sqoop,需了解大数据相关技术,对企业一般实施人员,技术要求过高。同时,对于一种交换场景,比如oracle交换数据到hive,sqoop、datax以及embulk都可以支持这种交换,此时,那什么时候该用什么工具,用什么引擎最合适最高效,经验不丰富的技术人员往往一时难以判断。而且开源交换引擎支持的场景过于重复,很多场景还未覆盖到。因此需要一种既能使用开源交换引擎的能力,又能补充交换能力,并且具有统一交换配置的工具来解决上述问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳天源迪科信息技术股份有限公司,未经深圳天源迪科信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611155430.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人工智能对话方法及系统
- 下一篇:一种多级联结循环神经网络的图像描述方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置