[发明专利]一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法有效

申请号：	201410569282.7	申请日：	2014-10-22
公开（公告）号：	CN104331435B	公开（公告）日：	2017-11-21
发明（设计）人：	郑海雁;谢林枫;金农;顾国栋;丁晓;张明明;翟学锋;吴钢;徐金玲;金璐;熊政;李昆明;仲春林;方超;季聪	申请（专利权）人：	国家电网公司;江苏省电力公司;江苏省电力公司信息通信分公司;江苏方天电力技术有限公司;江苏省电力公司南京供电公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京纵横知识产权代理有限公司32224	代理人：	董建林,汪庆朋
地址：	100031 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法，用Golden Gate从关系型数据库的在线日志文件中抽取变化的数据；将变化数据分别放到各自类别的文件中；利用MapReduce对数据进行解析与处理；对数据进行清洗、转换和过滤异常数据，并转换成适合分布式数据库HBase存储的格式；采用批量导入数据的方式将数据装载到分布式数据库HBase中；使用Tomcat服务器作为Web Server提供Web层的访问服务。本发明可以快速地将海量数据从关系型数据库抽取到大数据平台中，由于通过对数据源日志文件的分析实现对增量数据的抽取，因此本发明在抽取数据时对数据源系统的影响非常小。
搜索关键词：	一种基于 hadoop 数据平台影响高效率海量抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法，其特征在于，包括以下几个步骤：(1)用结构化数据备份工具从关系型数据库在线日志或归档日志中获得增量变化数据，并将所述增量变化数据根据其数据操作类型分为以下三类数据保存在Trail格式的文本文件中：插入数据、更新数据、删除数据；(2)将所述插入数据、更新数据、删除数据分别放到各自类别的文件中，使得每种类别的文件中只有一种类型的数据，用于批量生成分布式数据库HBase的数据文件HFile；(3)利用分布式并行计算框架MapReduce对步骤(2)中的三种类型数据进行解析与处理，将HFile格式文件输出到分布式文件系统HDFS中；(4)使用Web Server提供Web层的访问服务，以Web服务作为中间通道，用于连接关系型数据库和Hadoop大数据平台。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家电网公司;江苏省电力公司;江苏省电力公司信息通信分公司;江苏方天电力技术有限公司;江苏省电力公司南京供电公司，未经国家电网公司;江苏省电力公司;江苏省电力公司信息通信分公司;江苏方天电力技术有限公司;江苏省电力公司南京供电公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410569282.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法有效

专利文献下载