[发明专利]一种深度学习系统的部署方法和装置有效
申请号: | 202110651910.6 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113254158B | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 芮法玲 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;H04L12/24;H04L29/08 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰;杨帆 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 学习 系统 部署 方法 装置 | ||
1.一种深度学习系统的部署方法,其特征在于,包括执行以下步骤:
创建包括部署模块的人工智能插件,定义第一节点组和第二节点组的节点组模板,其中所述节点组模板包括指示第一节点组所安装的组件和第二节点组所安装的组件,并且部署模块中存储有外壳脚本,所述外壳脚本包括网络时间协议安装脚本和网络文件系统安装脚本;
基于所述节点组模板定义设备组的集群模板,其中所述集群模板包括指示设备组中按照所述第一节点组来安装组件的第一节点的数量和按照所述第二节点组来安装组件的第二节点的数量;
校验所述集群模板的配置合理性,并响应于所述集群模板的配置合理而基于所述集群模板与多个所述第一节点和多个所述第二节点相对应地创建分别具有人工智能框架的多个虚拟机;
由所述部署模块向多个所述虚拟机分别部署同一时钟和免密通信,基于所述集群模板而在多个所述虚拟机上选择性地执行所述网络时间协议安装脚本和所述网络文件系统安装脚本,并由所述人工智能插件基于通信基准通过套接字命令使用所述外壳脚本分别向在所述集群模板中被指定的多个所述虚拟机的所述人工智能框架中导入深度学习镜像;
其中,所述部署模块中还存储有图形处理单元驱动安装脚本;为多个所述虚拟机配置通信基准还包括:响应于检测到存在所述虚拟机所对应的所述第一节点或所述第二节点配置有直接连接的图形处理单元,而额外地针对所述虚拟机执行所述图形处理单元驱动安装脚本;
为多个所述虚拟机配置通信基准还包括:响应于检测到存在所述虚拟机所对应的所述第一节点或所述第二节点将安装的组件数量超过阈值,而向所述虚拟机安装额外的高可用组件。
2.根据权利要求1所述的方法,其特征在于,还包括:在定义第一节点组和第二节点组的节点组模板之前先创建包括通用模块的人工智能插件,所述通用模块用于定义深度学习系统调用的所有组件;
定义第一节点组和第二节点组的节点组模板包括:从所述通用模块获取所有组件,并在由所有组件限定的范围内定义所述第一节点组和所述第二节点组的所述节点组模板。
3.根据权利要求1所述的方法,其特征在于,还包括:在定义第一节点组和第二节点组的节点组模板之前先创建包括验证模块的人工智能插件;
多个组件包括控制组件和高可用组件;
校验所述集群模板的配置合理性包括:使用所述验证模块检查所述集群模板中多个所述第一节点和多个所述第二节点上分别将安装的所述控制组件数量是否均为奇数、和/或将安装的所述高可用组件是否均配置了宕机状态检测功能。
4.根据权利要求3所述的方法,其特征在于,响应于所述集群模板的配置合理而基于所述集群模板与多个所述第一节点和多个所述第二节点相对应地创建分别具有人工智能框架的多个虚拟机包括:
响应于所述集群模板中多个所述第一节点和多个所述第二节点上分别将安装的所述控制组件数量均为奇数、和/或将安装的所述高可用组件均配置了宕机状态检测功能,而判定所述集群模板的配置合理;
响应于所述集群模板的配置合理而由所述验证模块基于所述集群模板使用编排技术创建多个所述虚拟机,并向多个所述虚拟机中分别部署人工智能安装包镜像。
5.根据权利要求1所述的方法,其特征在于,还包括:在定义第一节点组和第二节点组的节点组模板之前先创建包括客户端模块的人工智能插件;在为多个所述虚拟机配置通信基准之后,还由所述客户端模块检查配置是否成功。
6.一种深度学习系统的部署装置,其特征在于,包括:
处理器;
控制器,存储有所述处理器可运行的程序代码,所述处理器在运行所述程序代码时执行以下步骤:
创建包括部署模块的人工智能插件,定义第一节点组和第二节点组的节点组模板,其中所述节点组模板包括指示第一节点组所安装的组件和第二节点组所安装的组件,并且部署模块中存储有外壳脚本,所述外壳脚本包括网络时间协议安装脚本和网络文件系统安装脚本;
基于所述节点组模板定义设备组的集群模板,其中所述集群模板包括指示设备组中按照所述第一节点组来安装组件的第一节点的数量和按照所述第二节点组来安装组件的第二节点的数量;
校验所述集群模板的配置合理性,并响应于所述集群模板的配置合理而基于所述集群模板与多个所述第一节点和多个所述第二节点相对应地创建分别具有人工智能框架的多个虚拟机;
由所述部署模块向多个所述虚拟机分别部署同一时钟和免密通信,基于所述集群模板而在多个所述虚拟机上选择性地执行所述网络时间协议安装脚本和所述网络文件系统安装脚本,并由所述人工智能插件基于通信基准通过套接字命令使用所述外壳脚本分别向在所述集群模板中被指定的多个所述虚拟机的所述人工智能框架中导入深度学习镜像;
其中,所述部署模块中还存储有图形处理单元驱动安装脚本;为多个所述虚拟机配置通信基准还包括:响应于检测到存在所述虚拟机所对应的所述第一节点或所述第二节点配置有直接连接的图形处理单元,而额外地针对所述虚拟机执行所述图形处理单元驱动安装脚本;为多个所述虚拟机配置通信基准还包括:响应于检测到存在所述虚拟机所对应的所述第一节点或所述第二节点将安装的组件数量超过阈值,而向所述虚拟机安装额外的高可用组件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110651910.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:群组预测模型的测试方法、装置和存储介质及电子设备
- 下一篇:一种收卷装置