[发明专利]对分片数据库数据采集的系统和方法有效
申请号: | 202010020041.2 | 申请日: | 2020-01-09 |
公开(公告)号: | CN110825816B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 田德惠 | 申请(专利权)人: | 四川新网银行股份有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/21 |
代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 濮云杉 |
地址: | 610094 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分片 数据库 数据 采集 系统 方法 | ||
本发明涉及对分片数据库数据采集的系统和方法,系统包括主程序模块:接收参数,启动xcat线程;配置模块:对每个分片数据库的连接信息进行配置;优先级配置模块:存储采集表的优先级配置信息;控制信息模块:通过控制信息表记录采集表的控制信息;采集子程序模块:接收控制信息表生成的数据和主程序模块的参数输出,对同一个采集表从不同的分片数据库中进行分布式并发数据采集。本发明在对大数据量的数据仓库进行数据采集时,对已有和新增的分库分表都完全实现了可配置化数据采集,不需要开发任务脚本,不需要变更应用程序,只需根据相应的关联配置信息即可实现,因此也使得采集数据的性能更加高效。
技术领域
本发明涉及数据采集的系统和方法,具体讲是对分片数据库数据采集的系统和方法。
背景技术
在传统的数据库中间件中,许多数据库中间件具有明显的局限性。例如Mycat与Sharding Proxy 都是分布式数据库的中间件,但是这些数据库中间件都并非为常用的分库分表的数据采集而设计的,虽然这些数据库中间件的功能较多,但在分布式数据仓库的应用场景下对大数据量的数据采集并不适用。其中一个重要原因是这些数据库中间件在查询数据库表时,如果在select语句的where条件中不带分片字段则会进行全表扫描(fullscan),查询的结果都将存储到数据库中间件中,待最后一个分片库数据采集完成后才将最终结果集返回到查询的客户端,这样会使得数据库中间件的运行负荷超载,而且在大数据量的数据采集时会带来无法预知问题。
发明内容
本发明提供了一种对分片数据库数据采集的系统和方法,针对大数据平台数据仓库,在实现采集分库分表程序的同时,满足便捷性、可配置化和稳定性的需求。
本发明对分片数据库数据采集的系统,包括:
主程序模块:通过系统的处理器接收批量日期与采集表的表名,启动xcat线程,其中在采集表中记录有需要采集的各种数据,并且一张采集表中的数据被存储在不同的分片数据库中;
配置模块:通过所述处理器接收主程序模块的输出,对每个分片数据库的连接信息进行配置,生成配置表并保存在系统的内存中;
优先级配置模块:通过所述处理器接收主程序模块的输出,并在系统的内存中存储有优先级配置表,在所述的优先级配置表中包含有根据下游系统对不同采集表的依赖强弱程度的不同,而对采集表的优先级配置信息;
控制信息模块:采集表分别与配置表和优先级配置表关联后,通过形成的控制信息表记录采集表的控制信息;
采集子程序模块:通过所述处理器接收控制信息表生成的数据和主程序模块的参数输出,通过Sqoop程序对同一个采集表从不同的分片数据库中进行分布式并发数据采集。
在现有的分布式系统中,采集表的优先级通常都是通过调度工具的作业来实现的,优先级是预先固定死的,调整优先级就需要修改相应的程序逻辑。而本发明的采集表优先级是由优先级配置表初始化后,通过后续作业对该采集表信息的依赖强弱程度来自动更新采集表权重,更加智能和实时,并且不需要对程序进行修改。
进一步的,还具有通过所述处理器接收控制信息表生成数据的信息日志模块,通过信息日志表记录每一次采集数据的信息和采集状态。
本发明还提供了一种用于上述系统的对分片数据库数据采集的方法,包括:
A.通过系统的处理器,由主程序模块接收批量日期与采集表的表名,然后启动xcat线程;
B.通过xcat线程,从内存中读取采集表、配置表和优先级配置表,并将采集表分别与配置表和优先级配置表关联后形成控制信息表,通过控制信息表记录采集表的控制信息,并且系统根据优先级配置表中保存的下游系统对不同采集表对应的依赖程度,实时调整在采集同一张采集表的数据时,不同的分片数据库之间的采集间隔时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010020041.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:斯特林发动机及其热交换方法
- 下一篇:数码印花机输送机构的清洁系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置