[发明专利]支持自定义插件的动态配置多数据库分布式持久化方法有效
申请号: | 202011634276.7 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112667747B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 谢铭;郑佳星;蒲路 | 申请(专利权)人: | 北京赛思信安技术股份有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/28;G06F16/23;G06F9/445 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100125 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 自定义 插件 动态 配置 多数 分布式 持久 方法 | ||
1.一种支持自定义插件的动态配置多数据库分布式持久化方法,其特征在于,包括:
步骤1,搭建大数据基础平台,包括存储引擎、配置生成工具loadtool、数据持久化工具Pasca、Zookeeper以及Kafka集群;
其中,配置生成工具loadtool接收到自动配置指令后,读取标准配置文件,对配置进行增加、删除、修改或查询操作;loadtool将标准配置文件上传至Zookeeper,同时也存入Mysql数据库备份;Pasca从Zookeeper读取配置文件;
所述的标准配置文件包括配置文件kaf kaserver和loadserver,其中,kafkaserver用于配置要读取的Kafka topic的信息以及数据持久化通道要发往的数据库;配置文件loadserver用于配置Hive的认证,数据存储的数据库名称和表名称,以及持久化数据的周期;
步骤2,监控Zookeeper以动态更新配置;
当对配置进行增加操作时,loadtool创建Kafka Topic,注册数据Schema,数据持久化工具Pasca生成相应存储引擎的数据持久化通道;当配置中出现新数据格式的配置时,Pasca根据自动配置指令中记载的数据类型jar包全路径名称,搜索调用对应的jar包,进行数据校验处理;
当对配置进行修改操作时,从Mysql数据库中查询相应的配置文件并修改,上传更新后的配置文件到Zookeeper;
当对配置进行删除操作时,从Mysql数据库中查询相应的配置文件并删除;
当对配置进行查询操作时,从Mysql数据库中查询相应的配置的库表信息返回;
步骤3,进行持久化数据接入,接入的数据类型包括实时数据和离线数据;设置多个实时数据接入服务端,以支持实时数据并行接入;
步骤4,数据持久化工具Pasca启动数据持久化通道,对接入的数据持久化。
2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,存储引擎包括Hive、HBase、ElasticSearch以及Mysql。
3.根据权利要求1所述的方法,其特征在于,所述的步骤1中,配置生成工具loadtool接收到的自动配置指令包含的属性如下:
Type,表示指定存储数据的存储引擎;
Append,表示增加配置或删除配置,取值false时为删除配置,取值ture时为增加配置;
databaseName,表示指定存储数据的数据库名称;
tableName,表示指定存储数据的数据表名称;
schemaIP,表示Schenma的服务端口地址;
datasourceTopic,表示Kafka需要创建的topic名称;
dataPluginName,表示要动态添加的数据类型jar包的全路径名称。
4.根据权利要求1或2所述的方法,其特征在于,所述的步骤3中,进行数据接入的步骤包括:
步骤31,首先对接入数据的服务端的权限进行查询,判断是否有权限发送数据到Kafka集群;若有权限,接入数据,继续执行下一步,否则终止数据接入;
步骤32,判断数据类型是否为AVRO格式文件或者CSV格式文件,若是,继续执行下一步,否则终止数据接入;
步骤33,判断数据校验级别,根据校验级别校验数据是否合法,若是记录数据条数并将数据发送Kafka集群,否则终止数据接入;所述的数据校验级别包括三种,分别是:不校验、基本数据类型校验以及复杂数据类型校验。
5.根据权利要求1所述的方法,其特征在于,所述的步骤4中,数据持久化工具Pasca持久化数据的步骤包括:
步骤41,首先判断需要发送的数据库类型,再判断是否使用默认格式的数据类型进行处理,若是使用默认格式的数据类型进行处理,否则,使用传入的新增数据类型进行处理;Pasca根据新增数据类型jar包全路径搜索调用对应的jar包,使用程序映射函数处理对应数据格式的接入数据;其中,默认格式的数据类型包括AVRO格式和CSV格式,所述的新增数据类型jar包中存储新增加的数据格式的处理逻辑的类;
步骤42,Pasca从Kafka集群获取接入数据,对数据统计并校验数据格式,存入对应的数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京赛思信安技术股份有限公司,未经北京赛思信安技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011634276.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自定心螺丝制造设备
- 下一篇:数据管理方法、装置及计算机可读存储介质