[发明专利]基于虚拟机的GPU集群管理系统有效
申请号: | 201110378981.X | 申请日: | 2011-11-24 |
公开(公告)号: | CN102521012A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 金海;廖小飞;梁东 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/46 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于虚拟机的GPU集群管理系统,包括集群管理节点和多个GPU集群节点,GPU集群节点又包括一个管理域和多个虚拟机。各虚拟机接收用户的CUDA作业,将其转发给集群管理节点,集群管理节点根据CUDA作业要求、GPS的参数信息以及虚拟机的当前作业队列信息指定合适的虚拟机运行作业;被指定的虚拟机运行作业过程中,拦截作业务中的特权指令,将其传送给管理域,管理域通过GPU驱动操作GPU运行特权指令,返回运行结果给对应的虚拟机以协助虚拟机的GUDA作业运行。本发明提供了先进的集群架构,支持虚拟桌面用户通过客户端提交GPU任务。该就能架构符合一系列的功能要求,包括网络透明性,易操作性和可扩展性。 | ||
搜索关键词: | 基于 虚拟机 gpu 集群 管理 系统 | ||
【主权项】:
一种基于虚拟机的GPU集群管理系统,包括一个集群管理节点和多个与其相接的GPU集群节点;所述GPU集群节点包括一个管理域和多个虚拟机;所述虚拟机包括GPU信息收集模块(1.1)、集群管理模块(2.1)和vCUDA库拦截模块(3.1);GPU信息收集模块(1.1),收集本集群节点的GPU参数信息,传送给集群管理模块(2.1);集群管理模块(2.1),提供接口给用户提交CUDA作业信息,将其与GPU参数信息、作业完成信息信息一起传送给集群管理节点,接收来自集群管理节点传送的CUDA作业调度指令,运行该指令指定的CUDA作业,将该作业运行完成结果传送给提交该作业的虚拟机;vCUDA库拦截模块(3.1),在集群管理模块(2.1)执行作业过程中,实时拦截GPU作业中的特权指令,将其传送给管理域,并接收管理域返回的特权指令运行结果以协助集群管理模块(2.1)的CUDA作业运行;所述管理域包括vCUDA库接收模块(4.1);vCUDA库接收模块(4.1),从vCUDA库拦截模块(3.1)接收特权指令,调用CUDA应用程序API通过GPU驱动操作实际硬件GPU运行特权指令,并将特权指令运行结果返回给其对应的虚拟机的vCUDA库拦截模块(3.1);所述集群管理节点包括集群管理中心模块(5)、GPU节点数据结构模块(6)和GPU集群调度模块(7);集群管理中心模块(5),接收来自虚拟机的集群管理模块(2.1)的GPU参数信息、GUDA作业信息和作业完成信息,将GPU参数信息和作业完成信息传送给GPU节点数据结构模块6,将GUDA作业信息传送给GPU集群调度模块(7),依据来自GPU集群调度模块(7)的作业调度结果产生CUDA作业调度指令;GPU节点数据结构模块(6),接收来自集群管理中心模块(5)的GPU参数信息和作业完成信息,将作业完成信息所来源的虚拟机的作业计数减一,接收来自GPU集 群调度模块(7)的执行虚拟机信息,将该执行虚拟机的作业计数加一;GPU集群调度模块(7),查询GPU节点数据结构模块(6)中的GPU参数信息,寻找满足GUDA作业要求的虚拟机,从满足要求的虚拟机中寻找作业计数最小者作为该作业的执行虚拟机,进而产生包含GUDA作业和该作业的执行虚拟机信息的作业调度结果,将作业调度结果传送给集群管理中心模块(5),同时将执行虚拟机信息传送给GPU节点数据结构模块(6)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110378981.X/,转载请声明来源钻瓜专利网。