[发明专利]大数据应用下高并发数据的数据同步方法及装置在审
申请号: | 202211586636.X | 申请日: | 2022-12-12 |
公开(公告)号: | CN115757644A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 林飞;何涛;易永波;古元;毛华阳;华仲峰 | 申请(专利权)人: | 北京亚鸿世纪科技发展有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/182;G06F16/28;G06F16/215 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100095 北京市海淀区高里*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 应用 并发 同步 方法 装置 | ||
大数据应用下高并发数据的数据同步装置涉及信息技术领域。本发明由数据采集模块、待下发数据生成模块、数据下发模块、数据处理模块、数据结果返回模块、数据判断模块、数据处理结果入库模块和数据关联模块组成;本发明具有多批次高并发数据并且数据同步返回的能力,保证了数据处理的实时性和数据填充率。
技术领域
本发明涉及信息技术领域。
背景技术
目前,数据溯源在实际的软件项目开发中变得越来越常见。并且在各种场景中,要求这种溯源的有较强的实时性和高并发性。例如,在实际工作中,已经定位到某个域名,或者某个互联网协议地址为目标,现在需要快速查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人、域名注册商信息),备案信息,存活信息,或者互联网协议地址的地理归属数据,备案公司的具体工商信息等,形成最终的统一结果,提供给后续进行研判分析。一般一个批次数据量3000条左右,要求15分钟之内返回,同一个时间段会有多个批次数据需要处理。
传统对于数据溯源的方式主要有:通过传统技术手段,例如多线程的方式,对每个场景定义定制化的流程。这种方式主要存在以下问题:可以满足单个批次高并发,但是不能满足数据多个批次高并发并且数据同步的要求。多线程的方式,对于单个批次可以高并发,多个批次必须依赖队列,但是增加队列之后,数据同步不能保证,造成数据的返回时效和数据填充率达不到要求。
用到的现有技术说明
大数据集群:这里指HADOOP集群,是一个基础框架,允许用简单的编程模型在计算机集群上对大型数据集进行分布式处理,分为三个部分:HDFS分布式存储系统,YARN分布式资源管理系统和MapReduce计算引擎。
大数据计算引擎:批处理使用Spark,流式处理使用sparkstreaming;内存计算引擎,使用sparksql离线内存计算和sparkstreaming实时计算。
大数据数据仓库:使用hive,基于Hadoop HDFS 之上的数据仓库,具有海量数据存储、水平可扩展、离线批量处理的优点,解决了传统关系型数仓不能支持海量数据存储、水平可扩展性差等问题。
大数据数据仓库内部表:内部表managed table即Hive管理的表,Hive内部表的管理既包含逻辑以及语法上的,也包含实际物理意义上的,即创建hive内部表时,数据将真实存在于表所在的目录内,删除内部表时,物理数据和文件也一并删除。
大数据数据仓库表分区:为了对表进行合理的管理以及提高查询效率,hive可以将表组织成分区,一个分区实际上就是表下的一个目录,一个表可以在多个维度上进行分区,分区之间的关系就是目录树的关系。
大数据数据仓库分区表:建表时有分区的数据仓库表,为大数据数据仓库分区表,分区表辅助查询,缩小查询范围,加快数据的检索速度和对数据按照一定的规格和条件进行管理。根据分区字段的数量分为不同级别的分区。
数据仓库总体层次划分:
原始库:简称ODS层,对业务系统数据进行采集、汇聚,保留原始业务流程数据,与业务系统基本保持一致,仅做简单整合、非结构化数据结构化处理;
资源库:又称公共维度模型层,它的主要作用是完成数据加工与整合、建立一致性的维度、构建可复用的面向分析和统计的明细事实表以及汇总公共粒度的指标,细分如下:
公共维度层DIM:基于维度建模理念思想,建立整个企业的一致性维度;
明细粒度事实层DWD:以业务过程为建模驱动,基于每个具体业务过程的特点,构建最细粒度的明细层事实表,可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当的冗余,即宽表化处理;
公共汇总粒度事实层DWS:以分析的主题对象为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段来物理化模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司,未经北京亚鸿世纪科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211586636.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置