[发明专利]一种用于深度学习的资源管理系统及方法在审
申请号: | 201910009875.0 | 申请日: | 2019-01-05 |
公开(公告)号: | CN109508238A | 公开(公告)日: | 2019-03-22 |
发明(设计)人: | 代豪;蒙孝宗;李清 | 申请(专利权)人: | 咪付(广西)网络技术有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 530007 广西壮族自治区南宁市高新区*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 项目平台 资源管理系统 管理平台 分布式存储器 存储模块 工作负担 监控训练 结果模型 任务资源 统一调度 项目信息 学习训练 训练效率 自动中断 控制器 生成器 注册器 脚本 重启 创建 仓库 保存 学习 配置 开发 管理 | ||
本发明公开了一种用于深度学习的资源管理系统及方法,所述系统包括:Kubernetes集群、Mysql存储模块和分布式存储器;所述Kubernetes集群包括训练管理平台和TensorFlow项目平台,所述训练管理平台包括注册器和控制器,所述TensorFlow项目平台由集群生成器构成;所述方法包括:步骤S100:创建包含TensorFlow训练脚本的Docker镜像,并将镜像推送到镜像仓库;步骤S200:注册TensorFlow项目,配置项目信息;步骤S300:创建TensorFlow项目平台,生成TensorFlow集群;步骤S400:启动任务训练,定时保存训练文件;步骤S500:任务训练结束,生成结果模型。通过本发明的系统及方法,可实现基于TensorFlow的深度学习训练任务资源的统一调度与管理,监控训练过程,支持自动中断与重启,减轻AI开发人员的工作负担,提高任务训练效率。
技术领域
本发明涉及深度学习技术领域,具体涉及一种用于深度学习的资源管理系统及方法。
背景技术
TensorFlow作为最新的、应用范围最为广泛的深度学习开源框架近年来受到了广泛的关注与重视,它不仅便携、高效、可扩展,具有灵活的移植性,编译速度快,还能在不同的计算机上运行:小到智能手机,大到计算机集群都可以。TensorFlow现已广泛用于从个人到企业、从初创公司到大公司等不同群体,无论在工业、商业还是科学研究上都展现出巨大的应用价值,因而已成为时下最热门的深度学习框架。
然而,在TensorFlow落地的过程中,也存在以下相应的一些问题:(1)资源无法隔离:训练时TensorFlow各个任务之间可能因计算资源抢占而互相影响,由于GPU显卡由GPU计算单元和显存组成,如果多个任务共用一个GPU,如果显存不够用的话,会发生训练中断或者其他未知错误;(2)缺乏调度能力:需要用户手动配置和管理任务的计算资源,这些都得在代码中硬编码实现;(3)训练异常中断:当PS或者worker异常导致任务进程退出后,由于TensorFlow没有自愈能力,需要人工介入才能恢复训练;(4)无生命周期管理:无法有效管理多个任务的执行过程、以及监控多个任务的状态等;(5)复杂的分布式部署:对于AI开发人员来说,每次发布一个训练任务,都要做一次分布式部署,这在一定程度上加重了程序员的心智负担,他们除了要实现训练任务逻辑外,还得操心有哪些机器资源可以用,如何让这个任务跑起来。
随着AI业务的不断发展,基于TensorFlow的神经网络模型的训练时间要求越来越高,单机模式下将难以应付大规模的深度神经网络模型训练。分布式TensorFlow集群训练方式虽然解决了单机算力不足的问题,但是本身并没有提供诸如任务调度、监控、失败重启等集群管理功能,这给AI开发人员大规模自动化的模型训练带来了不少的困难。
发明内容
本发明所要解决的技术问题是针对现有技术中存在的上述不足,提供一种用于深度学习的资源管理系统及方法,以实现基于TensorFlow的深度学习训练任务资源的统一调度与管理,监控训练过程,支持自动中断与重启,减轻AI开发人员的工作负担,提高任务训练效率。
为实现以上发明目的,采用的技术方案是:
一种用于深度学习的资源管理系统,该系统包括:Kubernetes集群、Mysql存储模块和分布式存储器;所述Kubernetes集群包括训练管理平台和TensorFlow项目平台,所述训练管理平台包括注册器和控制器,所述TensorFlow项目平台由集群生成器构成;
所述注册器用于注册TensorFlow项目,配置项目信息;所述控制器用于解析项目配置文件和创建TensorFlow项目;所述集群生成器为训练任务创建TensorFlow集群,并进行集群管理;所述TensorFlow集群包含参数服务器和计算节点;所述Mysql存储模块用于存储TensorFlow项目配置信息;所述分布式存储器用于存储训练数据和训练结果。
进一步的,所述训练管理平台还包括训练启停器,所述训练启停器用于启动或停止训练任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪付(广西)网络技术有限公司,未经咪付(广西)网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910009875.0/2.html,转载请声明来源钻瓜专利网。