[发明专利]一种基于Hadoop的海量录波数据存储和解析方法及系统有效
申请号: | 201710710158.1 | 申请日: | 2017-08-18 |
公开(公告)号: | CN107463706B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 卢圣财;戴人杰;廖旻;沈良;金明雨;吴旭鹏;王俊豪;周平;陈俊 | 申请(专利权)人: | 国网上海市电力公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/25 |
代理公司: | 上海兆丰知识产权代理事务所(有限合伙) 31241 | 代理人: | 卢艳民 |
地址: | 200122 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Hadoop的海量录波数据存储和解析方法,包括预处理步骤、解压缩故障录波数据步骤、配置文件解析与存储步骤以及数据文件解析与存储步骤,可以解决海量故障录波数据存储、快速解析及查询的问题,所有计算步骤易于实现,解析和查询速度显著提高,为进一步利用海量故障录波数据进行故障分析提供了技术支持。本发明还公开了一种基于Hadoop的海量录波数据存储和解析系统,包括预处理模块、数据解压缩模块、录波数据解析模块、数据输出模块、节点分配调度模块以及数据存储和查询模块。 | ||
搜索关键词: | 一种 基于 hadoop 海量 数据 存储 解析 方法 系统 | ||
【主权项】:
一种基于Hadoop的海量录波数据存储和解析方法,其特征在于,包括以下步骤:S1,预处理步骤:在HBase中创建录波文件信息表并在表中创建文件信息列族;创建故障录波数据表并在表中创建CFG数据列族和DAT数据列族;创建配置文件字段涵义表,并在表中创建字段列族,以字段对应的行数作为行键,字段所在列数作为列名,对应的字段名作为列值存入表中;S2,解压缩故障录波数据步骤,包括以下工序:S21,利用Hadoop提供的SequenceFile将压缩的故障录波文件中的小文件合并成一个文件,以文件名作为键,文件内容作为值进行分块输入;S22,采用Hadoop提供的CompressionCodec接口实现故障录波数据的并行解压缩,解压缩后的故障录波文件存放于HDFS分布式文件系统中;S23,以压缩文件名作为行键,“存储位置”、“CFG文件大小”和“DAT文件大小”作为列名,对应的信息作为列值存入录波文件信息表中的文件信息列族中;S3,配置文件解析与存储步骤,包括以下工序:S31,首先通过查询录波文件信息表获取需要解析的配置文件的位置信息,在解析之前,从配置文件字段涵义表中读入字段涵义,以“行键值:列名”作为键,字段列值作为值形成键值对映射表Z方便查询;若只有一个文件则直接解析;若有多个文件则采用Hadoop提供的文件合并输入格式接口将其合并成一个文件,进而先利用MapReduce的map函数以键值对解析文件,然后封装新Key并通过Reduce合并输出HBase中;S32,在HBase的故障录波数据表中,以变电站名称加上解析配置文件获取的录波触发时刻作为行键,对于变电站录波配置信息以及其他采样相关信息直接将字段名作为列名,通道信息则以“通道编号:通道对应字段名”作为列名,对应的字段值作为列值存入;S33,在故障录波数据表CFG数据列族中以“文件存储位置”为列名,文件位置为列值存入CFG文件位置信息;S4,数据文件解析与存储步骤,包括以下工序:S41,将较小的DAT文件先利用Hadoop提供的合并文件输入格式接口合并成一个文件首先进行解析,利用MapReduce进行解析时,需先封装新Key,新Key包含通道编号和采样编号两个变量,排序方式以先对通道编号,后对采样编号排序进行;S42,ACSII格式DAT文件解析,首先以行数为键,每行数据为值形成键值对<k5,v5>,进而解析每行数据获取采样编号k61,并按序生成通道编号k62,形成以新Key为键,对应的采样值乘以CFG文件中的转换因子为值的键值对<(k62,k61),v6>并作为reduce函数的参数,合并排序存入到HBase的故障录波数据表的DAT列族中;存储时,以变电站名称加上解析配置文件获取的录波触发时刻作为行键,以“k62:k61”作为列名,v6为列值存入,不同时间的录波数据由HBase中的时间戳进行区别;S43,BINARY格式DAT文件解析,重新实现Hadoop中的FileInputFormat类用以读取BINARY格式DAT文件,读取时根据模拟通道数量和状态通道数量计算出每一条采样记录所占用的字节数Bk,分块时以字节数的整数倍进行分块读取。MapReduce解析时,首先按Bk形成以采样编号为键,每条采样数据为值的键值对<k7,v7>,然后根据COMTRADE标准解析每行数据获取采样编号k81,并按序生成通道编号k82,形成新Key(k81,k82),同时解析文件获取实际采样值v8,形成键值对<(k82,k81),v8>。存储时,以变电站名称加上解析配置文件获取的录波触发时刻作为行键,以“k82:k81”作为列名,v8作为列值存入,不同时间的录波数据由HBase中的时间戳进行区别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网上海市电力公司,未经国网上海市电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710710158.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据清洗方法
- 下一篇:一种决策表下近似不变的局部属性约简定义及方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置