[发明专利]一种基于k8s的机器学习模型训练方法及系统在审
申请号: | 202210296057.5 | 申请日: | 2022-03-24 |
公开(公告)号: | CN114676850A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 秦志强;王超勇;邱壮壮;魏星;韩鑫;张扬 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F8/61 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陈翠兰 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 k8s 机器 学习 模型 训练 方法 系统 | ||
本发明公开了一种基于k8s的机器学习模型训练方法及系统,包括以下步骤:依次构建模型训练所需的镜像、算法和数据集;添加模型信息,并创建模型训练输出和训练任务日志输出的文件夹;将模型训练所需的信息保存到数据库;扫描数据库中的任务训练数据表,查看可执行任务,如果有,执行下一步,没有则等待下一次调度;查看K8S机器当前的资源是否满足任务执行需求,如果满足,执行下一步,不满足,则等待下一次调度;构建任务所需的yaml文件;调用k8s创建执行模型训练的job和相关的pv和pvc,开始模型训练。可以有效降低模型训练的难度,可以有效的降低系统的资源使用率,降低模型开发成本,解决了现有技术中维护成本高,模型支撑改进中支持的种类少的问题。
技术领域
本发明属于人工智能技术领域,涉及一种基于k8s的机器学习模型训练方法及系统。
背景技术
随着人工智能的迅速发展,各个公司都有模型训练的需求。现阶段模型训练过程有以下几个环节,每个环节都存在着一些问题。在模型训练前,需要配置训练环境,有时一台机器上可能搭建了许多运行环境,这些运行环境可能互相影响,导致任务的执行出错。在模型训练过程中,需要许多依赖文件,比如说数据集、算法等,现阶段这些都由算法工程师来管理。由于没有统一的管理方案,算法工程师需要花费一定的精力去管理这些文件。模型训练的过程一般用时很长,算法工程师需要长时间等待模型训练的结果,再去根据结果优化,不断迭代等。如果减弱算法工程师参与度,提高模型训练的效率,是亟待解决的问题。
发明内容
本发明的目的在于解决现有技术中的问题,提供一种基于k8s的机器学习模型训练方法及系统。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于k8s的机器学习模型训练方法,包括以下步骤:
S1:依次构建模型训练所需的镜像、算法和数据集,添加模型信息,并创建模型训练输出和训练任务日志输出的文件夹;
S2:将模型训练所需的镜像、算法、数据集、模型信息和文件夹保存到数据库;
S3:扫描数据库中的任务训练数据表,查看可执行任务,如果有,执行S5,没有则等待下一次调度;
S4:查看K8S机器当前的资源是否满足任务执行需求,如果满足,执行S6,不满足,则等待下一次调度;
S5:构建任务所需的yaml文件;
S6:调用k8s创建执行模型训练的job和相关的pv和pvc,开始模型训练。
本发明的进一步改进在于:
所述S1中,构建模型所需的镜像包括以下步骤:
选择模型训练所需的基础镜像和模型训练任务执行所需的依赖;
添加关于镜像的描述信息,构建镜像信息并将这些信息保存到数据库中;
扫描需要创建镜像的任务表,查找需要执行的任务;
在NFS服务器的/images/image_name文件夹创建Dockerfile和requirement.txt文件;
docker通过Dockerfile和requirement.txt创建镜像;
把镜像push到私有镜像仓库。
所述S1中,构建模型所需的算法包括以下步骤:
上传算法的压缩包;
添加算法的描述信息;
解压算法压缩包到NFS服务器/algorithms/algorithm_name文件夹下;
构建算法信息,并保存到数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210296057.5/2.html,转载请声明来源钻瓜专利网。