[发明专利]一种大数据的高效处理方法及系统在审
申请号: | 201410540392.0 | 申请日: | 2014-10-14 |
公开(公告)号: | CN104331421A | 公开(公告)日: | 2015-02-04 |
发明(设计)人: | 王佐成;任子晖;马韵洁;张凯 | 申请(专利权)人: | 安徽四创电子股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 合肥金安专利事务所 34114 | 代理人: | 吴娜 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 高效 处理 方法 系统 | ||
技术领域
本发明涉及计算机大数据应用处理技术领域,尤其是一种大数据的高效处理方法及系统。
背景技术
随着平安城市、智慧城市等大型项目在各地的广泛开展,数据集聚、数据融合进一步发展,需要处理的数据量达到了TB 级、PB级,大数据量的处理产生了一系列现实问题,原先关系型数据库在面对如此大的数据量时,其技术架构、处理能力、处理方式等越来越无法满足用户需求。
云计算、大数据技术的发展给海量数据的处理提供了很好的解决途径,Hadoop框架体系更是运用并行计算(MapReduce)、分布式存储(HDFS)的方式实现了大数据量的存储和计算。但是,由于分布式存储(HDFS)不支持结构化查询语句(SQL)直接进行处理,分布式存储(HDFS)的数据很难直接被进行处理,且计算任务最终都需转化成并行计算MapReduce框架来执行,其管理节点(Jobtracker)任务重、效率低、易导致单点故障。如何快速、便捷的对海量数据进行处理,如何在提高任务处理效率的同时,增加系统的可用性成为亟待解决的问题。
发明内容
本发明的首要目的在于提供一种在大数据的存储、检索、计算过程中实现大数据快速、高效处理的大数据的高效处理方法。
为实现上述目的,本发明采用了以下技术方案:一种大数据的高效处理方法,该方法包括下列顺序的步骤:
(1)数据节点接收待存储的数据;
(2)数据节点对数据进行存储,同时,根据业务场景创建索引并保存在内存中,并通过索引固化逐步保存在磁盘中;
(3)用户输入任务请求,SQL引擎根据创建的索引实现数据快速检索,并向计算节点输出数据;
(4)管理节点的任务处理模块执行任务调度,并向资源管理模块申请资源,确定空闲的计算节点,并由该计算节点对数据进行处理;(5)将最终的处理数据呈现给用户。
所述数据节点接收的数据类型包括结构化、半结构化和非结构化数据。
在进行数据存储和索引创建时,首先,根据业务场景创建索引规则,接着对接收的数据进行存储,存储在硬盘内,同时,在分布式文件系统的基础上运用blur+lencense组件构建索引,索引面向业务应用场景建立,按照索引数据形成在后、使用程度较高的条件选取并存储在内存存储模块内。
在进行检索时,由用户提交查询请求,控制模块对输入的查询请求信息进行分析,控制模块采用SQL引擎首先对查询条件进行自动语义识别,首先从内存存储模块内存储的索引中对目标进行查找,通过查找到的索引去磁盘中获得原始数据,并将数据返回、呈现给用户;如果查找不到,再到磁盘索引存储区进行查找。
所述任务处理模块将根据任务的优先级、难易程度情况向资源管理模块申请资源,资源管理模块依据调度算法给出具体的任务处理资源,返回给任务处理模块,任务处理模块对相应的计算节点下发任务。
所述的索引先存储在内存存储模块内,通过内存工作机制将超过内存存储容量的索引文件固化到磁盘中进行保存,以分布式文件的形式进行多副本存储,索引文件存入磁盘工作机制以内存存储区大小、索引形成先后顺序和索引文件使用程度参数为依据进行固化,将最先形成、使用程度最低的索引先固化到磁盘,固化到磁盘的索引文件是分布式存储的。
本发明的另一目的在于提供一种大数据的高效处理系统,包括:
存储及索引创建模块,数据节点对接收到的数据进行存储,同时,根据业务场景创建索引,首先将索引文件保存在内存存储模块中,再逐步保存在磁盘中;
检索模块,SQL引擎根据创建的索引,实现数据快速检索,并向计算节点输出数据;
处理模块,执行任务的调度,申请资源,对资源进行管理,并同时负责任务的切分、处理、归并、失败任务重启的功能,最终完成任务的执行。
所述处理模块包括:
资源管理模块,实现对计算模块资源的管理,通过计算节点客户端,适时感知计算节点的资源使用情况,随时准备动态为任务分配资源;
任务处理模块,接收任务,根据任务的优先级、难易程度情况向资源管理模块申请资源,资源管理模块依据调度算法给出具体的任务处理资源,返回给任务处理模块,任务处理模块负责将任务传递给给定的计算模块,并同时负责任务的切分、处理、归并、失败任务重启的功能,最终完成任务的执行;
计算模块,具体执行任务的物理或者虚拟资源节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽四创电子股份有限公司,未经安徽四创电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410540392.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:水轮机叶片在轮毂上的安装
- 下一篇:从文本中识别中文商品名称的方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置