[发明专利]基于Spark计算引擎的多源异构数据读取方法及装置有效
申请号: | 201910981513.8 | 申请日: | 2019-10-16 |
公开(公告)号: | CN110851513B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 周朝卫 | 申请(专利权)人: | 中盈优创资讯科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28;G06F16/22;G06F9/445 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 薛平;谷敬丽 |
地址: | 100872 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 spark 计算 引擎 多源异构 数据 读取 方法 装置 | ||
1.一种基于Spark计算引擎的多源异构数据读取方法,其特征在于,包括:
接收用户定义的一种或多种数据源的插件,其中,不同数据源的插件具有不同的配置项,不同数据源的插件对应不同的插件实现类,所述插件实现类用于通过读取不同数据源的配置项,将每个插件对应数据源的源数据,转换为Spark计算引擎的DataFrame数据;
接收用户为每种数据源的插件定义的一个或多个配置项;
根据用户定义的一种或多种数据源的插件,以及每种数据源的插件对应的一个或多个配置项,生成所述Spark计算引擎读取一种或多种数据源的配置文件;
获取Spark计算引擎读取一种或多种数据源的配置文件,其中,所述配置文件中包含多个插件,每个插件对应一种数据源的配置项;
根据所述配置文件,返回一个插件对象列表,其中,所述插件对象列表中每个插件对象对应一种数据源的插件;
基于所述插件对象列表,根据Spark计算引擎读取一种或多种数据源的源数据,返回所述Spark计算引擎读取的一种或多种数据源的DataFrame数据。
2.如权利要求1所述的方法,其特征在于,基于所述插件对象列表,根据Spark计算引擎读取一种或多种数据源的源数据,返回所述Spark计算引擎读取的一种或多种数据源的DataFrame数据,包括:
遍历所述插件对象列表中的每个插件,查找每个插件对应的插件实现类;
基于查找到的每个插件对应的插件实现类,将每个插件对应数据源的源数据转换Spark计算引擎能够操作的DataFrame数据。
3.如权利要求2所述的方法,其特征在于,在遍历所述插件对象列表中的每个插件,查找每个插件对应的插件实现类之前,所述方法包括:
获取预先定义的数据源父类,其中,所述数据源父类用于实现所述Spark计算引擎读取各种数据源均需执行的操作功能;
获取预先定义的各种数据源对应的插件实现类,其中,每种数据源对应的插件实现类均继承所述数据源父类所有的操作功能;
将所述配置文件中各种数据源对应的插件,映射至相应的插件实现类。
4.如权利要求1至3任一项所述的方法,其特征在于,在基于所述插件对象列表,根据Spark计算引擎读取一种或多种数据源的源数据,返回所述Spark计算引擎读取的一种或多种数据源的DataFrame数据之后,所述方法还包括:
根据所述插件对象列表,将各种数据源的DataFrame数据,注册为Spark临时表。
5.如权利要求1至3任一项所述的方法,其特征在于,在基于所述插件对象列表,根据Spark计算引擎读取一种或多种数据源的源数据,返回所述Spark计算引擎读取的一种或多种数据源的DataFrame数据之后,所述方法还包括:
根据所述插件对象列表,对各种数据源执行关联操作或数据转换处理。
6.如权利要求1至3任一项所述的方法,其特征在于,在基于所述插件对象列表,根据Spark计算引擎读取一种或多种数据源的源数据,返回所述Spark计算引擎读取的一种或多种数据源的DataFrame数据之后,所述方法还包括:
根据所述插件对象列表,将各种数据源的DataFrame数据,存储到分布式文件系统HDFS、HBase数据库或Oracle数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中盈优创资讯科技有限公司,未经中盈优创资讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910981513.8/1.html,转载请声明来源钻瓜专利网。