[发明专利]一种异构集群的Hadoop矩阵处理方法及系统在审
申请号: | 201511028067.7 | 申请日: | 2015-12-31 |
公开(公告)号: | CN105653708A | 公开(公告)日: | 2016-06-08 |
发明(设计)人: | 刘勇;喻之斌;须成忠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/50 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 郝明琴 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集群 hadoop 矩阵 处理 方法 系统 | ||
技术领域
本发明属于数据处理技术领域,尤其涉及一种异构集群的Hadoop矩阵处理 方法及系统。
背景技术
高矩阵运算已广泛应用于工业、科技等重要领域,从图像处理、数据挖掘 到生物计算等,矩阵乘法是矩阵运算中最为重要的计算之一。但随着矩阵规模 的扩展,短时间内进行矩阵相乘变得困难起来。传统矩阵乘法采用单个节点串 行处理或GPU并行处理方案。该方案虽然在一定程度上提高了性能,但是并不 适用于海量数据处理。Hadoop是一个能够对大数据处理的分布式框架,是 MapReduce编程模型最为流行的开源实现。它简化了数据分发、处理、计算和 任务调度,并具有高容错、高可靠、高可扩展和高资源利用率等特性。编程人 员只需要编写Map和Reduce函数,Hadoop会自动将任务分配到集群的各个节 点,并执行任务,从而达到数据并行。论文(孙远帅,陈,官新均,林琛)“基 于Hadoop的大数据乘法处理方法”,提出采用内积法和外积法实现MapReduce 的矩阵相乘。
然而,(1)对于海量数据处理应用,Hadoop表现并不理想。海量数据处理 应用,有两个特点:计算密集和数据密集,Hadoop主要适用于数据密集型应用; (2)采用内积法的MapReduce仅仅一个作业就可以完成任务,但是Map阶段 的中间输出结果很大,Hadoop框架在Map阶段需要将中间结果写入本地磁盘, Shuffle阶段需要复制对应分区的中间结果,因此,该方案在实际应用中很少使 用。外积法在降低一定并发粒度的情况下,把原先的作业分成两个,相对减少 了中间结果的数据量,但是第一个作业的输出需要作为第二个作业的输入,此 时需要等待第一个作业完成方能进行第二个作业。
发明内容
本发明鉴于上述现有技术的不足,提供一种异构集群的Hadoop矩阵处理方 法,有效提升Hadoop矩阵的相乘效率。
本发明的实施例提供一种异构集群的Hadoop矩阵处理方法,包括以下步骤,
搭建一个物理集群,设置一个Master节点及多个Slaver节点;
在所述Master节点及多个Slaver节点上分别配置Java开发环境下的编程环 境,并预编矩阵相乘CUDA版的Map和Reduce代码;
读取内存中已存储第一矩阵A及第二矩阵B的相关信息,并根据预编代码 对所述存储的第一矩阵A及第二矩阵B进行MapReduce矩阵相乘运算;
控制运算结果直接写进分布式文件系统HDFS;
其中,所述A=(aij)是m×s的矩阵,B=(bij)是s×n的矩阵。
优选地,所述Java开发环境下的编程环境是指Java开发环境JDK,Hadoop, IntelGPU的编程环境CUDA,JCuda,Ganglia;
其中,JCuda提供了Java直接访问CUDA的API,Ganglia实时监控集群的 CPU、内存、网络、硬盘利用率。
优选地,所述第一矩阵A及第二矩阵B的存储方式采用三元组表格存储方 式,具体列信息包括i,j,aiTbj;
其中,aiT为第一矩阵A的第i行;bj为第二矩阵B的第j列。
优选地,MapReduce矩阵相乘运算具体包括:
Map阶段,根据预编代码得到emit((i,j),aiT·bj),其中Reduce阶段,直接获得Map阶段的结果。
优选地,在所述步骤控制运算结果直接写进分布式文件系统HDFS之后,还 包括步骤,
搭建Web服务器,显示程序的加速比及所述物理集群的软硬件配置信息。
优选地,如果reduce阶段处理的数据个数为零,Map阶段将中间输入结果 直接写进分布式文件系统HDFS。
优选地,在所述第一矩阵A及第二矩阵B的存储方式采用三元组表格存储 方式存储之前,首先对所述第一矩阵A及第二矩阵B进行预处理,按照三元组 存储表格方式采集第一矩阵A及第二矩阵B中的相关信息。
本发明的实施例还提供一种异构集群的Hadoop矩阵处理系统,所述处理系 统包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511028067.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种录音文件索引的装置及方法
- 下一篇:一种个性化推荐方法及装置