[发明专利]一种用于AI平台部署的集群系统适配检测方法及装置在审
申请号: | 201911416748.9 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111240703A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 刘晓健 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F8/61 | 分类号: | G06F8/61 |
代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 张亮 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 ai 平台 部署 集群 系统 检测 方法 装置 | ||
本发明提供一种用于AI平台部署的集群系统适配检测方法及装置,方法包括如下步骤:S1.设置本地测试机,建立本地测试机与服务器集群的连接,并在本地测试机设置测试脚本;S2.配置测试脚本获取服务器集群中各服务器的IP地址,并根据IP地址,依次获取各服务器的实际信息;S3.配置测试脚本获取服务器集群中各服务器的标准信息;S4.比较各服务器的标准信息与实际信息,判断集群中各服务器是否满足AI平台安装的适配要求。本发明提在集群系统AI平台部署之前完成用户整个集群与AI安装包依赖环境的检测,提高安装部署AI平台时的集群检测效率,以便于完成AI平台的快速安装,且能根据反馈结果降低失败率。
技术领域
本发明属于集群检测技术领域,具体涉及一种用于AI平台部署的集群系统适配检测方法及装置。
背景技术
随着技术的发展,目前各个网站平台安装都需要集群服务器部署。而安装AI平台前也同样需要客户确认集群设备配置信息,尽管客户确认过集群信息,但由于集群设备规模和运维实施人员失误等因素,还是会出现管理节点、计算节点基本信息不一致的问题,所以为了完成AI平台的快速安装,需要在系统安装部署之前完成用户整个集群与AI安装包依赖环境的检测。
现有的方案是在集群系统部署之后,在集群中各个服务器中运行对应命令获取返回信息,查看各个设备是否符合AI平台安装部署要求,但是当集群系统存在较多设备时,运维人员查看各设备信息时可能存在疏漏,导致AI平台安装时部署失败。
此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种用于AI平台部署的集群系统适配检测方法及装置,是非常有必要的。
发明内容
针对现有技术的上述现有集群系统中需要各个服务器获取各自的信息,运维人员工作量大,导致存在疏漏可能性的缺陷,本发明提供一种用于AI平台部署的集群系统适配检测方法及装置,以解决上述技术问题。
第一方面,本发明提供一种用于AI平台部署的集群系统适配检测方法,包括如下步骤:
S1.设置本地测试机,建立本地测试机与集群系统的连接,并在本地测试机设置测试脚本;
S2.配置测试脚本获取集群系统中各服务器的IP地址以及各服务器的实际信息;
S3.配置测试脚本获取集群系统中各服务器的标准信息;
S4.配置测试脚本比较各服务器的标准信息与实际信息,判断集群系统中各服务器是否满足AI平台安装的适配要求。测试脚本基于python语句编写。
进一步地,步骤S1具体步骤如下:
S11.设置本地测试机,建立本地测试机与集群系统的连接;
S12.在本地测试机安装window操作系统,在windwow操作系统下安装python、python依赖包及测试脚本。在Windows下进行执行检测,无需登陆集群系统的各服务器,Windows中安装python及相关依赖包即可实现。
进一步地,步骤S2具体步骤如下:
S21.配置测试脚本通过python的环境检测工具获取集群系统中各服务器的IP地址;
S22.配置测试脚本自动获取集群用户名及密码,并根据集群用户名和密码依次登录集群系统中各个服务器,验证集群用户名密码是否一致;
S23.配置测试脚本在集群用户名密码一致时,通过环境检测工具获取集群系统中各个服务器的实际信息;
S24.配置测试脚本将返回的各服务器的实际信息生成以IP地址为索引的第一列表。
进一步地,所述服务器的实际信息均包括系统版本号、GPU类型及卡数、CPU核数、分区名称及大小、内存和是否最小化安装。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911416748.9/2.html,转载请声明来源钻瓜专利网。