[发明专利]大数据应用下高并发数据的数据同步方法及装置在审
申请号: | 202211586636.X | 申请日: | 2022-12-12 |
公开(公告)号: | CN115757644A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 林飞;何涛;易永波;古元;毛华阳;华仲峰 | 申请(专利权)人: | 北京亚鸿世纪科技发展有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/182;G06F16/28;G06F16/215 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100095 北京市海淀区高里*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 应用 并发 同步 方法 装置 | ||
1.大数据应用下高并发数据的数据同步装置,其特征在于由数据采集模块、待下发数据生成模块、数据下发模块、数据处理模块、数据结果返回模块、数据判断模块、数据处理结果入库模块和数据关联模块组成;
数据采集模块接收外部传递过来的任务号,从分布式关系型数据库根据任务号过滤本次需要处理的数据,本次需要处理的数据即外部系统下发的待溯源的数据,采集到大数据集群环境中,入库到大数据数据仓库原始库层,数据表为分区表,分区字段对应值为任务号;
待下发数据生成模块接收外部传递过来的任务号,进行批次号的生成,将当前时间加四位随机数字作为批次号,将原始库层数据,以任务号对分区进行过滤,并统计当前数据量作为批次总量,并写入到分布式关系型数据库的调度流程控制参数表,调度流程控制参数表至少包含任务号,批次号,批次总量,批次状态,批次状态包含:批次产生,初始化,已下发,已处理,已入库,新产生的批次数据批次状态置为批次产生;
待下发数据生成模块利用大数据计算引擎,将原始库层数据分为事实表,维度表,都打标上批次号,入库到大数据数据仓库中,结果为作为一级分区表的事实表和作为一级分区表的维度表,分区字段为批次号;事实表为明细粒度事实层,维度表为公共维度层;处理完成后更新分布式关系型数据库的调度流程控制参数表,置批次状态为初始化;
数据下发模块接收待下发数据生成模块传递过来的批次数据,从数据仓库中明细粒度事实层以分区字段为批次号进行过滤,然后逐条遍历过滤后数据,字段间以特殊符号进行拼接,特殊符号为选定为拼接符号的计算机特殊符号;创建生产者,将已经处理后的明细粒度事实层数据,逐条遍历,发送到大数据消息队列的待处理主题,本批次处理完成后,更新调度流程控制参数表,将批次状态置为已下发;
数据处理模块读取大数据消息队列的待处理主题的数据,进行逻辑处理后,写入到大数据消息队列的处理结果数据特定主题;根据业务逻辑不同设定多个逻辑处理子模块,当逻辑处理子模块对应的业务逻辑为域名查询时,创建消费者,以同一个业务在同一个数据消费者组下,不同的业务在不同数据消费者组下为原则,从大数据消息队列的待处理主题读取数据;处理逻辑,逐条解析数据,以特殊符号切割域名对应的特定字段,进行数据处理,将处理结果返回值进行封装,以特殊符号拼接;创建生产者,将拼接后的处理结果返回值,发送到大数据消息队列的处理结果数据特定主题;当逻辑处理子模块对应的业务逻辑为调用备案接口时,创建消费者,以同一个业务在同一个数据消费者组下,不同的业务在不同数据消费者组下为原则,从大数据消息队列的待处理主题读取数据;处理逻辑,逐条解析数据,以特殊符号切割备案接口对应的特定字段,进行数据处理,将处理结果返回值进行封装,以特殊符号拼接;创建生产者,将拼接后的处理结果返回值,发送到大数据消息队列的处理结果数据特定主题;当逻辑处理子模块对应的业务逻辑为查询域名是否已经被注册时,创建消费者,以同一个业务在同一个数据消费者组下,不同的业务在不同数据消费者组下为原则,从大数据消息队列的待处理主题读取数据;处理逻辑,逐条解析数据,以特殊符号切割已注册域名对应的特定字段,进行数据处理,将处理结果返回值进行封装,以特殊符号拼接;创建生产者,将拼接后的处理结果返回值,发送到大数据消息队列的处理结果数据特定主题;当逻辑处理子模块对应的业务逻辑为查询域名详细信息时,创建消费者,以同一个业务在同一个数据消费者组下,不同的业务在不同数据消费者组下为原则,从大数据消息队列的待处理主题读取数据;处理逻辑,逐条解析数据,以特殊符号切割域名详细信息对应的特定字段,进行数据处理,将处理结果返回值进行封装,以特殊符号拼接;创建生产者,将拼接后的处理结果返回值,发送到大数据消息队列的处理结果数据特定主题;
数据结果返回模块读取大数据消息队列的处理结果数据特定主题,写入到大数据分布式存储系统;
数据判断模块读取当前时间范围内的本批次大数据分布式存储系统的处理结果数据,本批次待下发数据,根据模块的优先级,进行对比,判断当前的批次数据是否处理完成,在当前的批次数据处理完成的前提下,进行下一个流程;在当前的批次数据处理未完成的前提下,判断当前判断模块处理时间是否超过预先定义的超时时间,超过预先定义的超时时间则进行下一个流程;未超过预先定义的超时时间,则休眠一个周期后,再进行下一个循环,再读取当前时间范围内的本批次数据处理结果和本批次待下发数据进行对比;当前时间范围包括:当前时间前1个小时加当前时间当前小时加当前时间后1个小时;
数据处理结果入库模块读取当前时间范围本批次大数据分布式存储系统的处理结果数据,进行合并去重后,入库到大数据数据仓库-数据处理结果表中;
数据关联模块读取本批次数据仓库中的数据处理结果数据,本批次事实数据表,本批次维度数据表,以本批次事实数据表为主表,左关联本批次维度数据表,本批次处理结果数据,形成最终结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司,未经北京亚鸿世纪科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211586636.X/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置