[发明专利]一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法有效
申请号: | 201410569282.7 | 申请日: | 2014-10-22 |
公开(公告)号: | CN104331435B | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 郑海雁;谢林枫;金农;顾国栋;丁晓;张明明;翟学锋;吴钢;徐金玲;金璐;熊政;李昆明;仲春林;方超;季聪 | 申请(专利权)人: | 国家电网公司;江苏省电力公司;江苏省电力公司信息通信分公司;江苏方天电力技术有限公司;江苏省电力公司南京供电公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京纵横知识产权代理有限公司32224 | 代理人: | 董建林,汪庆朋 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法,用Golden Gate从关系型数据库的在线日志文件中抽取变化的数据;将变化数据分别放到各自类别的文件中;利用MapReduce对数据进行解析与处理;对数据进行清洗、转换和过滤异常数据,并转换成适合分布式数据库HBase存储的格式;采用批量导入数据的方式将数据装载到分布式数据库HBase中;使用Tomcat服务器作为Web Server提供Web层的访问服务。本发明可以快速地将海量数据从关系型数据库抽取到大数据平台中,由于通过对数据源日志文件的分析实现对增量数据的抽取,因此本发明在抽取数据时对数据源系统的影响非常小。 | ||
搜索关键词: | 一种 基于 hadoop 数据 平台 影响 高效率 海量 抽取 方法 | ||
【主权项】:
一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法,其特征在于,包括以下几个步骤:(1)用结构化数据备份工具从关系型数据库在线日志或归档日志中获得增量变化数据,并将所述增量变化数据根据其数据操作类型分为以下三类数据保存在Trail格式的文本文件中:插入数据、更新数据、删除数据;(2)将所述插入数据、更新数据、删除数据分别放到各自类别的文件中,使得每种类别的文件中只有一种类型的数据,用于批量生成分布式数据库HBase的数据文件HFile;(3)利用分布式并行计算框架MapReduce对步骤(2)中的三种类型数据进行解析与处理,将HFile格式文件输出到分布式文件系统HDFS中;(4)使用Web Server提供Web层的访问服务,以Web服务作为中间通道,用于连接关系型数据库和Hadoop大数据平台。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;江苏省电力公司;江苏省电力公司信息通信分公司;江苏方天电力技术有限公司;江苏省电力公司南京供电公司,未经国家电网公司;江苏省电力公司;江苏省电力公司信息通信分公司;江苏方天电力技术有限公司;江苏省电力公司南京供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410569282.7/,转载请声明来源钻瓜专利网。
- 上一篇:具有牵引机构的接头
- 下一篇:水轮机叶片在轮毂上的安装
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置