[发明专利]基于分布式数据流处理引擎的数据库导数方法、设备和介质有效
申请号: | 202110254713.0 | 申请日: | 2021-03-05 |
公开(公告)号: | CN112905668B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 张灵星;王海霖;陈黄;张国庆 | 申请(专利权)人: | 北京中经惠众科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/2457;G06F16/27 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 初媛媛;吴丽丽 |
地址: | 100089 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 数据流 处理 引擎 数据库 导数 方法 设备 介质 | ||
1.一种基于分布式数据流处理引擎的数据库导数方法,包括:
从消息系统的多个分区读取待导入数据库的多个数据;
将所述多个数据分别存储至所述分布式数据流处理引擎的存储单元中;
将所述存储单元中的数据导入数据库;
根据预设规则触发所述分布式数据流处理引擎执行检查点设置操作,
其中,所述检查点设置操作包括:
响应于所述分布式数据流处理引擎被触发执行检查点设置操作,获取当前从多个分区中的每一分区所读取的数据的位置参数,以使得当前从多个分区中的每一分区所读取的数据能够作为检查数据;
存储多个检查数据的位置参数,以使得基于所存储的所述多个检查数据的位置参数能够实现数据库导数的断点续传;
为所述多个检查数据中的每一个检查数据标注屏障标记;以及
响应于被标注屏障标记的多个检查数据均被成功读入,确定完成检查点设置操作。
2.根据权利要求1所述的方法,其中,根据预设规则触发所述分布式数据流处理引擎执行检查点设置操作包括:
按照预设周期触发所述分布式数据流处理引擎执行检查点设置操作。
3.根据权利要求2所述的方法,其中,按照预设周期触发所述分布式数据流处理引擎执行检查点设置操作包括:
在每一周期中,对从消息系统读取的数据进行计数,并且对从消息系统读取数据的持续时长进行计时;
响应于从消息系统读取的数据的计数达到预设数量或者从消息系统读取数据的持续时长达到预设时长,触发所述分布式数据流处理引擎执行检查点设置操作。
4.根据权利要求1所述的方法,其中,所述存储单元包括所述多个检查数据和位置参数之间的对应关系,
所述方法还包括:
响应于检测到数据库的导数过程出现中断,基于多个检查数据的位置参数,继续执行将存储单元中的数据导入数据库。
5.根据权利要求1所述的方法,其中,每一检查数据的位置参数包括该检查数据所对应的与分区相关的第一编码,以及与该检查数据的读取顺序相关的第二编码。
6.根据权利要求5所述的方法,其中,针对从每一个分区读取的多个数据,累计所读取的数据的个数,
其中,针对该分区,将所确定的检查数据对应的所述累计得到的个数作为该检查数据的所述第二编码。
7.根据权利要求1所述的方法,其中,存储多个检查数据的位置参数包括:
将之前存储的多个检查数据的位置参数更新为当前所确定的多个检查数据的位置参数。
8.根据权利要求7所述的方法,还包括:
累计执行检查点设置操作的次数。
9.根据权利要求1所述的方法,其中,响应于从消息系统的多个分区读取的数据被成功读入,继续从该数据对应的分区读取数据。
10.根据权利要求1所述的方法,其中,响应于被标注屏障标记的某一检查数据被成功读入,继续从该检查数据对应的分区读取数据。
11.根据权利要求1-10中任一项所述的方法,其中,所述分布式数据流处理引擎包括连接器,所述分布式数据流处理引擎通过连接器从消息系统的多个分区读取待导入数据库的多个数据。
12.根据权利要求11所述的方法,其中,所述分布式数据流处理引擎为flink。
13.根据权利要求1-10中任一项所述的方法,其中,所述消息系统为kafka消息系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中经惠众科技有限公司,未经北京中经惠众科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110254713.0/1.html,转载请声明来源钻瓜专利网。