[发明专利]模型训练方法、装置及集群系统在审
申请号: | 202010080825.4 | 申请日: | 2020-02-05 |
公开(公告)号: | CN111327692A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 骆宝童;丁瑞全;张恒华;胡在斌;黄凯文;李志 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06N3/08 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;臧建明 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 集群 系统 | ||
本申请实施例公开了一种模型训练方法、装置及集群系统,涉及人工智能技术领域。具体实现方案为:硬件方面,通过将控制节点和至少一个计算节点通过网络互连,在计算节点中引入GPU作为计算资源,从而大幅度提升集群系统的硬件能力,进而提升模型训练的效率。软件方面,通过对slurm框架进行优化,引入客户端、超级管理平台等,使得集群系统用起来更方便。
技术领域
本申请实施例涉及人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种模型训练方法、装置及集群系统。
背景技术
随着人工智能的不断发展,对AI模型的训练需求也越来越大。AI模型训练过程中,当训练的数据集较小时,深度学习效果并不理想,甚至不如相对简单的机器学习方法。但是,当数据集增大后,利用深度学习训练出的AI模型的效果开始超过其他机器学习的训练效果。
常见的深度学习过程中,通过使用高性能计算集群(high performancecomputing,HPC)对大规模的数据集进行训练,以得到AI模型。HPC总体结构可分为以下几个主要部分:外部网络、主节点(master node)、计算节点(compute node)、存储(stroage)、计算网络(computation network)以及管理网络(management network)等。其中,计算节点的计算资源包括单核中央处理器(central processing unit,CPU)、多核CPU或多CPU等。
上述的HPC中,单个计算节点的计算资源主要以CPU为主,硬件能力有限,导致上述的HPC使用深度学习训练AI模型的效率较低。
发明内容
本申请实施例提供一种模型训练方法、装置及集群系统,通过使用具有GPU卡的计算节点来提高集群系统的硬件能力,从而提高模型训练的效率。
第一方面,本申请实施例提供一种集群系统,包括:控制节点、至少一个计算节点、存储节点;其中,所述控制节点,与所述至少一个计算节点中的各计算节点建立连接,用于为训练目标模型的任务分配计算资源;所述计算节点包括至少一个中央处理器CPU和至少一个图形处理器GPU,用于利用所述计算资源训练目标模型;所述存储节点与所述至少一个计算节点中的各计算节点建立网络连接,用于存储训练目标模型所需的数据。
一种可行的设计中,所述至少一个计算节点中的任意两个计算节点基于无限带宽Infiniband技术互联建立网络连接,所述计算节点内部的CPU与GPU通过高速外围组件互联PCIE连接,所述计算节点内部的GPU与GPU通过NV link连接。
第二方面,本申请实施例提供一种模型训练方法,适用于控制节点、至少一个计算节点、存储节点的集群系统,所述方法包括:所述控制节点接收应用程序接口API服务器发送的第一请求,所述第一请求是所述API服务器根据第一用户通过第一终端上的客户端发送的训练目标模型所需的资源信息得到的,所述控制节点根据所述资源信息,为所述目标模型分配目标资源,所述控制节点向目标计算节点发送第二请求,使得所述目标计算节点使用所述目标资源训练目标模型。
一种可行的设计中,所述资源信息包括下述信息中的至少一个:目标计算节点的数量、利用所述目标计算节点训练所述目标模型时被占用的GPU的数量、利用所述目标计算节点训练所述目标模型时被占用的CPU的数量。
一种可行的设计中,上述的方法还包括:所述控制节点接收第二终端设备发送的管理请求,所述管理请求用于请求管理所述集群系统中的计算节点,所述控制节点根据所述管理请求管理所述集群系统中的计算节点。
一种可行的设计中,所述控制节点根据所述管理请求管理所述集群系统中的计算节点,包括:所述控制节点调用集群开放应用程序接口Open API对第二用户鉴权;若所述第二用户通过鉴权,则所述控制节点根据所述管理请求管理所述集群系统中的计算节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010080825.4/2.html,转载请声明来源钻瓜专利网。