[发明专利]一种大数据迁移的方法及系统在审
申请号: | 201711127174.4 | 申请日: | 2017-11-15 |
公开(公告)号: | CN107958159A | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 苏卓;李伟坚;施展;姜文婷;吴赞红 | 申请(专利权)人: | 广东电网有限责任公司电力调度控制中心 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F17/30;H04L29/08 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 迁移 方法 系统 | ||
技术领域
本发明涉及及大数据的技术领域,特别涉及一种大数据迁移的方法及系统。
背景技术
目前,大数据作为数据爆炸的结果,其内在隐藏的价值和挑战已经越来越被业界所认识。所谓“大数据”包含以下四个层面的含义:第一、数据体量巨大,从TB级别跃升到PB级别;第二、数据类型繁多,主要包括网络日志、视频、图片、地理位置信息等等;第三、价值密度低,以视频为例,在连续不间断地监控过程中,可能有用的视频只有一两秒钟;第四、处理速度快,1秒定律。尤其,第四点处理速度快与传统的数据挖掘技术有着本质的不同。
对大数据进行分析,进而从中挖掘出有价值的商业信息已经成为企业未来核心竞争力之一。大数据分析主要包括大规模结构化数据分析和非结构化数据(包含半结构化数据)分析,其目前的解决方案是通过使用MapReduce框架对大规模非结构化数据处理,将处理结果导入到数据仓库,进而使用商业智能或者数据预测分析等方法及工具,挖掘数据内在的价值。鉴于基于数据仓库及商业智能软件大规模结构化数据的分析技术及工具已经很成熟。以文件为主体的非结构化数据以远远超过结构化数据的速度增长,成为了大数据的主要来源,也成为了大数据分析面临的主要挑战。对大规模非结构化数据的分析是大数据分析需要解决的主要问题,所谓大规模非结构化数据分析,就是需要把从各个分散的异构的系统中产生的数据,聚合(迁移)到一个大数据文件系统;进一步地,使用MapReduce框架对存储在该文件系统上的数据进行处理,将处理结果导入到相应的大规模结构化数据分析套件中。大数据文件系统,主要指的是服务于非结构化大数据分析的文件系统,典型的实现包括横向拓展直连存储(Scale-out DAS,如Hadoop HDFS、Google GFS(Google File System))和横向拓展网络连接存储(Scale-out NAS)。由于MapReduce框架已经发展的比较成熟,因此大规模非结构化数据分析所需要解决的主要问题在于:如何聚合和迁移大数据,聚合和迁移大数据需要应对的挑战主要包括:
1.存储的分散性和访问的透明性
企业的大数据通常产生于各个分散的业务系统,比如ERP、财务系统、客户关系管理系统等等,出于数据安全性的考虑(因为这些数据的访问通常是有不同访问权限的,比如财务系统产生的数据只能授权给财务人员或者企业高级管理人员访问),这些数据很难被聚合在一起,进行处理和分析;如果采用streaming的技术(如IBM streams等流数据处理技术),这种技术的一个特点是将各个分散异构平台上的数据单独处理,然后将处理结果集中,做进一步处理。但是,streaming技术的应用将使各个异构平台上的数据不能够被透明访问(如授权访问),大大地限制了大数据分析工具的使用范畴和数据处理的方法。
2.产生和保存数据的遗留系统的异构性
通常情况下,企业的数据产生于各个异构的遗留系统,这些遗留系统中运行着不同的应用程序为企业各种业务提供支持,其依赖的硬件平台(如存储系统、CPU指令集等)和文件系统(如ZFS、ext4等)往往也异构。这种由于历史原因导致的遗留系统的异构性,使大数据的迁移和聚合变得非常复杂。
3.数据迁移和聚合的延迟性
如上所述,企业的大数据通常产生于各个异构平台,而目前主流大数据分析方法体系需要将数据迁移、聚合之后,而后才能作分析(特别是各个数据源产生数据的交叉分析)。考虑到通常情况下,需要迁移的待分析数据量巨大,这种方法体系下数据分析的价值回报周期将被极大地延长。
为了应对以上挑战,目前非结构化大数据聚合和迁移的解决方案主要包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司电力调度控制中心,未经广东电网有限责任公司电力调度控制中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711127174.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置