[发明专利]一种基于云计算的合并IO装置有效
申请号: | 201410640777.4 | 申请日: | 2014-11-12 |
公开(公告)号: | CN104407811B | 公开(公告)日: | 2017-09-19 |
发明(设计)人: | 别志铭;张健明;张勇鹏;王旭;王礼;吴楠 | 申请(专利权)人: | 珠海世纪鼎利科技股份有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 广州嘉权专利商标事务所有限公司44205 | 代理人: | 谭志强 |
地址: | 519085 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 计算 合并 io 装置 | ||
技术领域
本发明涉及数据处理领域,特别是一种基于云计算的合并IO装置。
背景技术
Hadoop是一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
大型数据量一般都是T级别或P级别(1T=1024GB,1P=1024TB),对于数据密集型的任务,在hadoop执行mapreduce的时候(MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,其极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上),大部分时间都是用在磁盘和网络读写上面,而系统的CPU和内存都没有被充分的利用起来。假设一个任务读取一个P级的数据需要的时间为T,则批量N个任务同时处理的情况下,可能需要的时间为T*N,处理的速度太慢,效率太低。
发明内容
为解决上述问题,本发明的目的在于提供一种基于云计算的合并IO装置,把Hadoop读写时可能需要使用的数据,通过内存映射的方式,最大限度的使用内存,减少对磁盘和网络的读写,提升读写效率。
本发明解决其问题所采用的技术方案是:
一种基于云计算的合并IO装置,包括:
任务分解器,用于在接收到批量任务时,提取出每个任务的输入信息和输出信息;
输入合并器,以原子数据块为单位,分别将输入信息中相同的原子数据块合并为一个原子数据块;
输出合并器,用于将输出信息及对应任务名分别合并为对应的一个数组,每个任务只保留对应其在不同数组中的序号值;
智能数据总线,用于以原子数据块为单位管理输入和输出信息,并以原子数据块为单位向hadoop传递以输入或输出信息为对应读写内容的读写数据。
进一步,所述每个任务的输入信息包括输入数据的地址及输入数据的时间范围,以输入信息作为value值,任务分解器以对应任务的任务名作为key值,将每个任务的key值与value值存入至任务分解器的输入缓存对象中。
进一步,所述每个任务的输出信息包括输出数据地址,任务分解器以输出信息作为value值,以对应任务的任务名作为key值,将每个任务的key值与value值存入至任务分解器的输出缓存对象中。
进一步,所述输入合并器以输入缓存对象中存储的数据作为合并对象,根据每个任务的输入数据的地址及输入数据的时间范围判断是否有相同的原子数据块,如果有,则将其合并为一个原子数据块。
进一步,所述输出合并器以输出缓存对象中的数据作为合并对象,首先对不同任务的key值与value值进行分析合并,之后,分别将key值与value值并成对应一个大的key值数组和value值数组,每个任务只保留对应其在key值数组和value值数组中的序号值。
进一步,所述智能数据总线为与hadoop通信的唯一接口,且
当hadoop读取数据时,其每次读取的数据大小均为智能数据总线处理后的输入数据,此输入数据的大小为原子数据块的整数倍,不足以零补充;
当hadoop写入数据时,其首先将数据传输至智能数据总线,智能数据总线将写入数据拼装成原子数据块的整数倍大小的输出数据后,再统一写入磁盘。
进一步,所述合并IO装置还包括数据缓存器,当系统内存不能承受过多的原子数据块时,智能数据总线将多余的原子数据块下放给数据缓存器,数据缓存器用于根据原子数据块的下放时间信息构成时间索引树。
进一步,所述时间索引树的树枝分为三级,其中,第1级树枝存放天,第2级树枝存放小时,第3级树枝存放分钟,叶子节点存放原子数据块,且时间索引树的树枝节点全部存放内存中,叶子节点上的原子数据块经过压缩后,存放至磁盘。
进一步,所述原子数据块具有权重,权重的大小与该原子数据块被不同任务重复使用的次数成正比,当智能数据总线将多余的原子数据块下放给数据缓存器时,首先下放权利最小的原子数据块。
进一步,所述原子数据块的大小为1024KB。
本发明的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海世纪鼎利科技股份有限公司,未经珠海世纪鼎利科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410640777.4/2.html,转载请声明来源钻瓜专利网。