[发明专利]一种异构集群的Hadoop矩阵处理方法及系统在审

专利信息
申请号: 201511028067.7 申请日: 2015-12-31
公开(公告)号: CN105653708A 公开(公告)日: 2016-06-08
发明(设计)人: 刘勇;喻之斌;须成忠 申请(专利权)人: 中国科学院深圳先进技术研究院
主分类号: G06F17/30 分类号: G06F17/30;G06F9/50
代理公司: 深圳市科进知识产权代理事务所(普通合伙) 44316 代理人: 郝明琴
地址: 518055 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 集群 hadoop 矩阵 处理 方法 系统
【说明书】:

技术领域

发明属于数据处理技术领域,尤其涉及一种异构集群的Hadoop矩阵处理 方法及系统。

背景技术

高矩阵运算已广泛应用于工业、科技等重要领域,从图像处理、数据挖掘 到生物计算等,矩阵乘法是矩阵运算中最为重要的计算之一。但随着矩阵规模 的扩展,短时间内进行矩阵相乘变得困难起来。传统矩阵乘法采用单个节点串 行处理或GPU并行处理方案。该方案虽然在一定程度上提高了性能,但是并不 适用于海量数据处理。Hadoop是一个能够对大数据处理的分布式框架,是 MapReduce编程模型最为流行的开源实现。它简化了数据分发、处理、计算和 任务调度,并具有高容错、高可靠、高可扩展和高资源利用率等特性。编程人 员只需要编写Map和Reduce函数,Hadoop会自动将任务分配到集群的各个节 点,并执行任务,从而达到数据并行。论文(孙远帅,陈,官新均,林琛)“基 于Hadoop的大数据乘法处理方法”,提出采用内积法和外积法实现MapReduce 的矩阵相乘。

然而,(1)对于海量数据处理应用,Hadoop表现并不理想。海量数据处理 应用,有两个特点:计算密集和数据密集,Hadoop主要适用于数据密集型应用; (2)采用内积法的MapReduce仅仅一个作业就可以完成任务,但是Map阶段 的中间输出结果很大,Hadoop框架在Map阶段需要将中间结果写入本地磁盘, Shuffle阶段需要复制对应分区的中间结果,因此,该方案在实际应用中很少使 用。外积法在降低一定并发粒度的情况下,把原先的作业分成两个,相对减少 了中间结果的数据量,但是第一个作业的输出需要作为第二个作业的输入,此 时需要等待第一个作业完成方能进行第二个作业。

发明内容

本发明鉴于上述现有技术的不足,提供一种异构集群的Hadoop矩阵处理方 法,有效提升Hadoop矩阵的相乘效率。

本发明的实施例提供一种异构集群的Hadoop矩阵处理方法,包括以下步骤,

搭建一个物理集群,设置一个Master节点及多个Slaver节点;

在所述Master节点及多个Slaver节点上分别配置Java开发环境下的编程环 境,并预编矩阵相乘CUDA版的Map和Reduce代码;

读取内存中已存储第一矩阵A及第二矩阵B的相关信息,并根据预编代码 对所述存储的第一矩阵A及第二矩阵B进行MapReduce矩阵相乘运算;

控制运算结果直接写进分布式文件系统HDFS;

其中,所述A=(aij)是m×s的矩阵,B=(bij)是s×n的矩阵。

优选地,所述Java开发环境下的编程环境是指Java开发环境JDK,Hadoop, IntelGPU的编程环境CUDA,JCuda,Ganglia;

其中,JCuda提供了Java直接访问CUDA的API,Ganglia实时监控集群的 CPU、内存、网络、硬盘利用率。

优选地,所述第一矩阵A及第二矩阵B的存储方式采用三元组表格存储方 式,具体列信息包括i,j,aiTbj

其中,aiT为第一矩阵A的第i行;bj为第二矩阵B的第j列。

优选地,MapReduce矩阵相乘运算具体包括:

Map阶段,根据预编代码得到emit((i,j),aiT·bj),其中Reduce阶段,直接获得Map阶段的结果。

优选地,在所述步骤控制运算结果直接写进分布式文件系统HDFS之后,还 包括步骤,

搭建Web服务器,显示程序的加速比及所述物理集群的软硬件配置信息。

优选地,如果reduce阶段处理的数据个数为零,Map阶段将中间输入结果 直接写进分布式文件系统HDFS。

优选地,在所述第一矩阵A及第二矩阵B的存储方式采用三元组表格存储 方式存储之前,首先对所述第一矩阵A及第二矩阵B进行预处理,按照三元组 存储表格方式采集第一矩阵A及第二矩阵B中的相关信息。

本发明的实施例还提供一种异构集群的Hadoop矩阵处理系统,所述处理系 统包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201511028067.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top