[发明专利]一种面向深度学习的CPU与GPU混合的集群架构系统在审
申请号: | 201510666799.2 | 申请日: | 2015-10-15 |
公开(公告)号: | CN105227669A | 公开(公告)日: | 2016-01-06 |
发明(设计)人: | 张清;王娅娟 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 深度 学习 cpu gpu 混合 集群 架构 系统 | ||
技术领域
本发明涉及互联网高性能计算技术领域,特别是涉及一种面向深度学习的CPU与GPU混合的集群架构系统。
背景技术
在2006年,加拿大多伦多大学教授、机器学习领域泰斗——GeoffreyHinton和他的学生RuslanSalakhutdinov在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。自2006年以来,深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据,就是脑神经系统的确具有丰富的层次结构。一个最著名的例子就是Hubel-Wiesel模型,由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。除了仿生学的角度,目前深度学习的理论研究还基本处于起步阶段,但在应用领域已显现出巨大能量。2011年以来,微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20%~30%,是语音识别领域十多年来最大的突破性进展。2012年,DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。在这一年,DNN还被应用于制药公司的DrugeActivity预测问题,并获得世界最好成绩,这一重要成果被《纽约时报》报道。
如今Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是大数据时代来临,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。深度学习应用包括语音识别、图像识别、自然语言处理、搜索广告CTR预估等,这些应用的计算量十分巨大,其需要大规模计算。
目前大规模的深度学习系统由纯CPU集群架构组成,或者由纯GPU集群架构组成,但是采用纯CPU集群架构系统,它完全由CPU构成,需要消耗大量的CPU能耗,资源耗能太大,而且CPU集群只能处理一种应用特征的深度学习,不能处理其他种类的深度学习应用,处理深度学习应用的效率太低,而且CPU本身硬件成本就很高,整个CPU集群的成本太高。
发明内容
本发明的目的是提供一种面向深度学习的CPU与GPU混合的集群架构系统,以实现减少资源耗能,提高深度学习处理效率,且降低成本。
为解决上述技术问题,本发明提供一种面向深度学习的CPU与GPU混合的集群架构系统,该系统包括:
中央处理器CPU集群,用于运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,所述CPU集群中每个CPU节点均与其它所有的CPU节点相连;
图像处理器GPU集群,用于运行计算密集的深度学习应用;所述GPU集群包括至少100个GPU,所述GPU集群中每个GPU节点内GPU卡数为至少2个,所述GPU集群中每个GPU节点均与其它所有的GPU节点相连;
与所述CPU集群相连的第一交换机;
与所述GPU集群相连的第二交换机;
与所述第一交换机和第二交换机相连的第三交换机;
与所述第三交换机相连的并行存储设备,用于为所述CPU集群和所述GPU集群提供共用的数据。
优选的,所述深度学习应用包括语音深度学习应用、图像深度学习应用或者文字深度学习应用。
优选的,所述CPU集群中任意两个CPU节点之间采用万兆以太网互联。
优选的,所述GPU集群中任任意两个GPU节点之间采用56Gb/s的高速网络IB互联。
优选的,所述并行存储设备为高宽带并行Lusre存储设备,用于支持多进程或多线程的并行读写。
优选的,所述CPU节点采用双路高主频CPU。
优选的,所述GPU节点由中央处理器CPU构成,所述GPU节点采用双路低主频CPU。
优选的,所述系统还包括调度机制模块,用于判断数据大小,根据数据大小确定应用规模;当数据小于10GB的数据时,判断数据的应用规模为属于第一级的小规模应用,将数据调度到单个GPU节点运行;当数据大于10GB且小于1TB时,判断数据的应用规模为属于第二级的中等规模应用,将数据调度到4个GPU节点运行;当数据大于1TB时,判断数据的应用规模为属于第三级的大规模应用,将数据调度到整个GPU集群运行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510666799.2/2.html,转载请声明来源钻瓜专利网。