[发明专利]集群中的维表更新方法及装置在审
申请号: | 202111407107.4 | 申请日: | 2021-11-24 |
公开(公告)号: | CN114064658A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 马东 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/23;G06F16/2455 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 陈刚 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 中的 更新 方法 装置 | ||
本申请是关于一种集群中的维表更新方法及装置,具体涉及数据库技术领域。所述方法包括:监测目标数据库中目标维表的维表信息变化,并对应生成维表数据流;将所述维表数据流广播至目标实例;根据所述维表数据流更新所述镜像维表文件;更新后的所述镜像维表文件用于支撑所述目标实例中的行为数据流的操作。上述方案目标实例中存储的镜像维表文件可以根据维表数据流进行更新,使得行为数据流根据更新后的镜像维表文件执行操作,保证了维度信息的实时更新,提高了集群中任务处理过程中维度信息的准确性。
技术领域
本发明涉及网络通信技术领域,具体涉及一种集群中的维表更新方法及装置。
背景技术
随着大数据技术的发展和用户需求的提高,如何快速有效地找出蕴藏在海量数据中的信息成为大数据时代面临的热点。而在实际应用中,通常需要以原始数据流作为基础,然后关联大量的外部表来补充一些属性。
当下的主流实时处理引擎Apache Flink,一个同时针对流和批的分布式处理引擎,其全新的设计兼备了低延时和高吞吐的优点。在大数据实时计算场景下,为了避免大规模访问外部客户端造成的通信阻塞,可以在系统启动时,就将维表的数据全部加载到缓存中,然后数据在缓存中进行关联,不需要直接访问外部数据库,只需要一次性地访问外部数据库,大大提高了效率。
上述方案中,维度信息随便可能在变,但是缓存中的维表只能在固定周期才会同步一次,导致维度信息的准确性较差。
发明内容
本申请提供了一种集群中的维表更新方法及装置,提高了集群中任务处理过程中维度信息的准确性,该技术方案如下。
一方面,提供了一种集群中的维表更新方法,所述方法包括:
监测目标数据库中目标维表的维表信息变化,并对应生成维表数据流;
将所述维表数据流广播至目标实例;所述目标实例的存储区域中包含所述目标维表的镜像维表文件;
根据所述维表数据流更新所述镜像维表文件;更新后的所述镜像维表文件用于支撑所述目标实例中的行为数据流的操作。
又一方面,提供了一种集群中的维表更新装置,所述装置包括:
信息变化监测模块,用于监测目标数据库中目标维表的维表信息变化,并对应生成维表数据流;
数据流广播模块,用于将所述维表数据流广播至目标实例;所述目标实例的存储区域中包含所述目标维表的镜像维表文件;
镜像文件更新模块,用于根据所述维表数据流更新所述镜像维表文件;更新后的所述镜像维表文件用于支撑所述目标实例中的行为数据流的操作。
在一种可能的实现方式中,所述维表数据流中包含目标数据字段;
所述镜像文件更新模块,还用于,
根据所述目标数据字段中的目标表项的标识,以及与目标表项对应的操作标识,对所述镜像维表文件进行更新;所述操作标识为更新、删除、新增中的一者。
在一种可能的实现方式中,所述信息变化监测模块,还用于,
通过变化数据捕捉CDC监测所述目标数据库的日志文件,并对所述日志文件进行解析,生成所述维表数据流。
在一种可能的实现方式中,所述信息变化监测模块,还用于,
当所述日志文件中的第一日志字段指示所述删除第一表项的操作,将第一表项的标识以及删除标识构建第一数据字段;
当所述日志文件中的第二日志字段指示更新第二表项的操作,将第二表项的标识、更新后的第二表项以及更新标识构建第二数据字段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111407107.4/2.html,转载请声明来源钻瓜专利网。