[发明专利]模型训练方法、装置及集群系统在审
申请号: | 202010080825.4 | 申请日: | 2020-02-05 |
公开(公告)号: | CN111327692A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 骆宝童;丁瑞全;张恒华;胡在斌;黄凯文;李志 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06N3/08 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;臧建明 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 集群 系统 | ||
1.一种集群系统,其特征在于,包括:控制节点、至少一个计算节点、存储节点;其中,
所述控制节点,与所述至少一个计算节点中的各计算节点建立连接,用于为训练目标模型的任务分配计算资源;
所述计算节点包括至少一个中央处理器CPU和至少一个图形处理器GPU,用于利用所述计算资源训练目标模型;
所述存储节点与所述至少一个计算节点中的各计算节点建立网络连接,用于存储训练目标模型所需的数据。
2.根据权利要求1所述的系统,其特征在于,
所述至少一个计算节点中的任意两个计算节点基于无限带宽Infiniband技术互联建立网络连接,所述计算节点内部的CPU与GPU通过高速外围组件互联PCIE连接,所述计算节点内部的GPU与GPU通过NVlink连接。
3.一种模型训练方法,其特征在于,适用于控制节点、至少一个计算节点、存储节点的集群系统,所述方法包括:
所述控制节点接收应用程序接口API服务器发送的第一请求,所述第一请求是所述API服务器根据第一用户通过第一终端上的客户端发送的训练目标模型所需的资源信息得到的;
所述控制节点根据所述资源信息,为所述目标模型分配目标资源;
所述控制节点向目标计算节点发送第二请求,使得所述目标计算节点使用所述目标资源训练目标模型。
4.根据权利要求3所述的方法,其特征在于,所述资源信息包括下述信息中的至少一个:目标计算节点的数量、利用所述目标计算节点训练所述目标模型时被占用的GPU的数量、利用所述目标计算节点训练所述目标模型时被占用的CPU的数量。
5.根据权利要求3或4所述的方法,其特征在于,还包括:
所述控制节点接收第二终端设备发送的管理请求,所述管理请求用于请求管理所述集群系统中的计算节点;
所述控制节点根据所述管理请求管理所述集群系统中的计算节点。
6.根据权利要求5所述的方法,其特征在于,所述控制节点根据所述管理请求管理所述集群系统中的计算节点,包括:
所述控制节点调用集群开放应用程序接口Open API对第二用户鉴权;
若所述第二用户通过鉴权,则所述控制节点根据所述管理请求管理所述集群系统中的计算节点。
7.根据权利要求6所述的方法,其特征在于,所述管理请求携带所述第二用户的访问密钥标识和第一密钥,所述第一密钥是所述第二终端设备利用预设认证机制生成的,所述控制节点调用集群开放应用程序接口Open API对第二用户鉴权,包括:
所述控制节点调用所述集群Open API,利用所述预设认证机制生成第二密钥;
若所述第一密钥和所述第二密钥相同,则所述控制节点确定所述第二用户的管理权限;
所述控制节点根据所述管理权限向所述第二终端设备发送权限信息,以使得所述第二终端设备根据所述权限信息显示所述第二用户对应的权限。
8.根据权利要求6所述的方法,其特征在于,
所述集群Open API包括集群管理API,所述管理请求用于请求创建或删除集群;
或者,
所述集群Open API包括机器管理API,所述管理请求用于请求对所述至少一个计算节点中的任意一个计算节点执行下述任一项操作:上线、下线、重启、重装、维修、屏蔽。
9.一种模型训练方法,其特征在于,适用于控制节点、至少一个计算节点、存储节点的集群系统,所述方法包括:
目标计算节点接收控制节点发送的第二请求,所述第二请求是所述控制节点接收到应用程序接口API服务器发送的第一请求并为目标模型分配目标资源后发送的,所述第一请求是所述API服务器根据第一用户通过第一终端上的客户端发送的训练目标模型所需的资源信息得到的,所述目标节点包含于所述至少一个计算节点;
所述目标计算节点使用所述目标资源训练所述目标模型;
所述目标计算节点将训练好的目标模型发送至存储节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010080825.4/1.html,转载请声明来源钻瓜专利网。