[发明专利]一种社保大数据分布式预处理方法及系统在审
申请号: | 201610451305.3 | 申请日: | 2016-06-20 |
公开(公告)号: | CN106126601A | 公开(公告)日: | 2016-11-16 |
发明(设计)人: | 张星明;陈伟健;林育蓓;吴世豪 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种社保大数据分布式预处理方法及系统,主要技术方案是将数据预处理流程定义为包含多个预处理操作节点的数据预处理作业,预处理操作节点在独立的线程中并行执行;对复杂度高的数据操作节点分配多个执行线程,并以分布式云服务器集群的方式并行执行数据预处理作业;分布式预处理系统的数据装载按列方式写入分布式文件系统,同时利用NoSQL对数据写入操作进行缓存优化。本发明充分发挥了预处理云服务器的处理性能,克服了单一服务器的性能瓶颈,也避免了服务器与HDFS数据节点之间多余的数据传输,同时提高数据装载到HDFS的效率,从而提高大数据预处理的效率。 | ||
搜索关键词: | 一种 社保 数据 分布式 预处理 方法 系统 | ||
【主权项】:
一种社保大数据分布式预处理方法,其特征在于:首先,将数据预处理的各种操作定义为数据操作节点,将一套数据预处理流程定义为数据预处理作业,数据预处理作业由数据操作节点构成;然后对给定的数据预处理作业,为其中的每个数据操作节点分配一个或多个线程,分配多个线程的数据操作节点称为并行数据操作节点,启动预处理作业即启动多个线程同时工作,而仅包含单线程数据操作节点的预处理流程中,数据流按单泳道传递;对复杂度高的数据操作节点分配多个执行线程,并以分布式云服务器集群的方式并行执行数据预处理作业,集群由云平台上搭建的预处理服务器组成,包括一台主服务器和多台子服务器,系统将预处理作业中分配多线程的数据操作节点抽取出来,构成子预处理作业,分配给子服务器,剩余部分则交由主服务器处理,集群任务调度器采用MapReduce并行模式,按照设定的分区规则对主服务器上操作节点的数据集进行均匀划分,传输给子服务器进行处理,子服务器完成数据处理操作后发送给主服务器进行合并,最终保持数据的一致性;所述数据处理流程按如下具体步骤执行:1)云平台为云服务器分配所需资源,并初始化预处理云服务器集群;2)云平台初始化预处理集群任务调度器,调度器负责管理数据操作节点活动、监听操作节点的执行,以及指导数据集的划分和分发任务;3)云服务器加载数据操作节点的元数据,元数据定义了数据操作节点的名称和操作数据集的字段信息,包括字段名称、数据类型、数据精度,云服务器对加载的数据操作节点按先后顺序排列;4)云服务器对各数据操作节点按以下步骤执行:4.1)云服务器获取当前数据操作节点,根据元数据获取操作节点名称以及操作的数据集信息;判断数据操作节点是否为并行数据操作节点,若不是,执行步骤4.2),若是,执行步骤4.3);4.2)主服务器从上一操作节点获取数据集,并负责执行当前节点定义的数据操作任务;数据操作任务完成后,执行步骤4.4);4.3)主服务器从上一操作节点获取数据集,由集群任务调度器按照设定的分区规则对数据集进行均匀划分,传输给子服务器并行执行数据操作任务;子服务器完成数据处理操作后发送给主服务器进行合并,数据操作任务完成后,执行步骤4.4);4.4)判断有无后续数据操作节点,若有,则执行步骤4.1)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610451305.3/,转载请声明来源钻瓜专利网。
- 上一篇:大卷径分条收卷装置
- 下一篇:建筑模板拼接的多功能板式连接件
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置