[发明专利]一种电网时序大数据并行加载方法有效

申请号：	201410566127.X	申请日：	2014-10-22
公开（公告）号：	CN104407879B	公开（公告）日：	2018-02-02
发明（设计）人：	王远;袁军;包建国;胡健;张珂珩	申请（专利权）人：	江苏瑞中数据股份有限公司
主分类号：	G06F9/445	分类号：	G06F9/445
代理公司：	南京知识律师事务所32207	代理人：	汪旭东
地址：	210003 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种电网时序数据并行加载方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种数据并行加载方法，属于大数据处理、分布式实时数据库领域，特别适用于智能电网、物联网中海量历史时序数据的并行加载方法。

背景技术

随着工业化、信息化的不断发展，大型流程工业企业在生产信息化过程中产生越来越多的海量历史时序数据。以电力系统为例，一方面是测点规模越来越大，预计将达到千万级甚至亿级以上；另一方面是历史时序数据量规模越来越大，预计将达到PB字节以上，这对实时数据库的处理规模、处理速度提出了更高的要求。

传统实时数据库受制于其传统的软件体系架构，在数据规模、处理能力、并行计算、负载均衡、动态自治等方面已无法满足实际应用需求。在实时数据库领域，引入大数据处理技术来解决上述问题是当前研究时序大数据处理的主要方法，而基于Hadoop+HBase的方法则是当前大数据处理事实上的标准(如图1所示)。

对以HBase为存储层的大数据处理系统，为了提高系统的查询性能，一般对数据存储表的索引做哈希处理生成固定长度的字节数组，即单独建立一张表来完成数据存储表索引的哈希映射，也称为索引映射表。生产系统运行时，随着时间的推移大量测点将产生海量的历史时序数据，而对于基于Hadoop+HBase的大数据处理系统的初次上线或运行时已经产生的海量历史时序数据的加载将成为一个亟待解决的问题。单客户端加载海量历史时序数据不能发挥分布式并发处理的能力，需要耗费大量的时间才能完成，而一般的多客户端并行加载在数据加载时又会遇到多客户端同时读写索引映射表文件产生大量的磁盘IO冲突和集群不同节点之间网络通信开销大而引起的不能并行加载及由此产生的等待现象的问题；经初步检索，暂未发现有解决上述技术问题的技术方案。

发明内容

为了解决上述问题，本发明提供了一种电网时序大数据并行加载方法，该方法可以有效减少并行加载时，多客户端读写索引映射表文件遇到的磁盘IO冲突，并且通过保持数据局部性的方法来减少集群节点之间的网络通信开销，这样能够充分利用分布式系统的并行处理能力进而高效的完成海量历史时序数据的加载。

为了实现上述目的，本发明采用了如下技术方案：

一、分区处理

多客户端并行加载海量历史时序数据，每条数据记录都会首先访问索引映射表文件来确定该条数据记录将要写到哪个数据存储表的分区，这样一来对于海量历史时序数据并行加载时，对索引映射表文件的读写将造成过多的磁盘IO冲突，进而成为影响海量历史时序数据并行加载性能的瓶颈。

因此，本发明对索引映射表做分区处理，利用HBase的分区管理能力，来使索引映射文件表的不同分区均衡地分布在不同的数据节点上，这样可以减少多客户端并行加载时遇到的磁盘IO冲突；

本发明还根据待加载的数据量的大小对历史时序数据存储表做分区预处理，以避免多客户端并行加载海量历史时序数据时过多的写数据请求集中到某个数据节点及“hot region”问题。

二、保持待加载数据的数据局部性(Data Locality)

海量历史时序数据存储于单个数据节点进行数据加载将不能充分发挥分布式系统并行处理的能力，且会造成该机器节点负载过重。而将海量历史时序数据随意的按文件大小切分后分发到各数据节点，这样进行多客户端数据加载时将会使不同数据节点之间网络通信开销成为制约系统性能的瓶颈。

本发明方法通过读取每个数据节点所管理的历史数据存储表的分区及每个分区所对应的索引映射表的范围，对待加载的海量历史时序数据按分区进行切分处理，并把切分后的属于同一个数据节点的历史时序数据合并后分发到其所对应的数据节点。

经过上述处理即保持数据局部性后，再进行多客户端并行加载数据时，能够确保每个客户端会将待加载的历史时序数据存储在本客户端机器(数据节点)所管理的历史数据存储表的分区中。这样，避免了多客户端并行加载海量历史时序数据时网络带宽成为影响系统加载性能瓶颈的可能。

本发明方法对索引映射表文件和历史数据存储表做分区处理后能够减少并行加载海量历史时序数据时多客户端同时读写索引映射表遇到的磁盘IO冲突、过多的写数据请求集中到某一个数据节点及“hot region”问题，保持待加载数据的数据局部性能够避免多客户端并行加载海量历史时序数据时集群不同数据节点之间的网络通信开销成为影响系统加载性能瓶颈的可能性，进而能够最大限度的利用分布式并行处理能力，减少数据加载的时间，从而高效地完成海量历史时序数据的并行加载。

附图说明

图1是典型的Hadoop+HBase分布式系统集群架构图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏瑞中数据股份有限公司，未经江苏瑞中数据股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410566127.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种电网时序大数据并行加载方法有效

专利文献下载