[发明专利]人工智能分布式训练平台的搭建方法及平台在审
申请号: | 202110129313.7 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112860373A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 张福强;齐宇 | 申请(专利权)人: | 西藏宁算科技集团有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455 |
代理公司: | 成都市鼎宏恒业知识产权代理事务所(特殊普通合伙) 51248 | 代理人: | 段和香 |
地址: | 850000 西藏自*** | 国省代码: | 西藏;54 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人工智能 分布式 训练 平台 搭建 方法 | ||
1.一种人工智能分布式训练平台的搭建方法,其特征在于:包括如下步骤:
1)总控管理模块(100)其实现方式包括如下步骤:
步骤1.1:安装docker;
步骤1.2:下载并安装kubeadm;
步骤1.2.1:添加镜像源;步骤1.2.2安装kubeadm、kubelet、kubectl;
步骤1.3:初始化kubernetes环境;
步骤1.4:安装GPU设备管控插件;
2)计算机设备模块(200)其实现方式包括如下步骤:
步骤2.1:搭建基础环境:同上述步骤1中的1.1、1.2,安装docker和kubeadm;步骤2.2:在总控管理模块(100)上,获取加入总控的指令:
步骤2.3:将计算机设备(200)作为资源加入总控管理模块(100)中;
3)镜像构建模块(300)其实现方式包括如下步骤:
步骤3.1:编写Dockerfile文件;
步骤3.2:构建镜像;
步骤3.3:编写yaml文件,作为部署文件;
步骤3.4:开始训练。
2.一种人工智能分布式训练平台,其特征在于:包括总控管理模块(100)、计算机设备模块(200)和镜像构建模块(300)。
3.根据权利要求2所述的一种人工智能分布式训练平台,其特征在于:总控管理模块(100)管理各个计算机的GPU资源,开发人员在此模块创建训练任务,创建的训练任务分发到各台独立的计算机设备上。
4.根据权利要求2所述的一种人工智能分布式训练平台,其特征在于:计算机设备模块(200)是部署在各个计算机设备上,管控计算机的GPU资源,并上报给总控管理模块(100)。
5.根据权利要求2所述的一种人工智能分布式训练平台,其特征在于:镜像构建模块(300)将开发人员提交的算法代码,集合运行环境,构建成一个Docker镜像,总控管理模块(100)获取构建出来的镜像,将镜像部署到计算机设备模块(200)上进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西藏宁算科技集团有限公司,未经西藏宁算科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110129313.7/1.html,转载请声明来源钻瓜专利网。