[发明专利]一种用于多并行处理框架的数据处理方法及装置有效
申请号: | 201710584226.4 | 申请日: | 2017-07-18 |
公开(公告)号: | CN107480202B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 唐卓;刘昆昆;陈都 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/11;G06F16/2458;G06F9/54 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 并行 处理 框架 数据处理 方法 装置 | ||
本发明提供了一种用于多并行处理框架的数据处理方法及装置,该方法包括:步骤S1:获取使用环境的配置信息;步骤S2:根据所述使用环境的配置信息和底层存储数据属性选择相应的数据调用方法并调用底层存储数据,然后通过统一的格式转换方法对获得的底层存储数据集中的底层存储数据进行数据格式转换,得到统一格式抽象数据集;步骤S3:将所述统一格式抽象数据集提供给上层应用使用。本发明通过根据使用环境配置信息和底层存储数据存储介质类型,选择对应的数据调用方法并调用底层存储数据,然后通过统一的格式转换方法,将底层存储数据转换为统一格式抽象数据集并提供给上层应用使用,进一步提高多并行处理框架的扩展性、通用性和易用性。
技术领域
本发明涉及大数据多并行处理技术领域,尤其涉及一种用于多并行处理框架的数据处理方法及装置。
背景技术
目前,大数据技术的快速发展应用给现有技术带来了4V的挑战:规模(Volume),从万亿字节(TB)级到千万亿字节(PB)级甚至到十万亿亿字节(ZB)级别;种类(Variety),数据种类繁多,既包括传统的结构化数据又包括诸如文本、视频、图片和音频等非结构化数据,而且非结构化数据的比重在快速增加;价值(Value),数据价值密度低,难以进行预测分析、运营智能、决策支持等计算;速度(Velocity),大数据处理的速度问题愈发突出,时效性难以保证。总体来看,大数据处理技术的困境实质上是信息化设施的处理能力与数据处理的问题规模之间的矛盾,即目前的计算机系统无法有效处理PB级以上的大数据。大数据所表现出的增量速度快、时间局部性低等特点,使得以计算为中心的传统模式面临着内存容量有限、输入/输出(I/O)压力大、缓存命中率低、数据处理的总体性能低等诸多挑战,难以取得性能、能耗与成本的最佳平衡,大数据技术在制造业应用对现有的数据采集、处理和分析框架带来严峻的挑战:
(1)流数据、非结构化数据的处理和分析往往需要动态可扩展的计算和存储能力,传统的以服务器集群、SQL数据库为主流架构的企业数据中心基础设施无论在硬件和软件容量上都不具备实时扩展的能力,很难满足企业数据处理应用对资源的弹性需求;
(2)现有的面向非结构化的数据存储架构基本上都是基于NOSQL分布式文件系统,这给传统的以SQL数据库编程为主要技能的程序员带来了困扰;
(3)现有的传统企业基于数据库的分析和处理的应用往往不具备按数据分块进行并行处理的能力。而Hadoop MapReduce/Spark并行编程框架对于一般的企业开发人员来说又难以短时间掌握。这使得以Hadoop/spark、Hbase等为代表的大数据并行存储和处理框架的应用很难得到较大面积的推广和应用;
(4)以人工智能经典算法、机器学习模型为核心的数据挖掘框架是目前进行大数据分析的主要手段。但对于传统企业的开发人员来说,同样面临着人工智能算法门槛太高,难于掌握的困境,使得一般的软件公司很难组建面向行业数据分析处理和挖掘的研发团队。
为了面向大数据处理设计出一套合适的高速计算架构,当前国际学术界和工业界主要从系统软件、体系结构、分布式系统等方面进行了改进和优化:
(1)在系统软件方面,人们主要提出了以内存数据库及编译器优化等技术来应对大数据处理难题。内存数据库(如H-store)将相关数据加载到内存中,从而不需要引入磁盘I/O的开销。但是它提供了原子性、一致性、隔离性和持久性保证,使得对一致性要求较弱的应用支付了不必要的开销,限制了系统的可扩展性。另外也有从编译方面进行优化的,比如PeriSCOPE通过数据类型及数据大小确定最小的数据传输流。
(2)在系统结构方面,主要通过采取增加内存、增加处理器和协处理器以及增加I/O通道来缓解大数据处理带来的挑战。但是这些增加又为体系结构的改进带来了成本与能耗的增加。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710584226.4/2.html,转载请声明来源钻瓜专利网。