[发明专利]监控训练任务的方法、系统及计算机存储介质在审
申请号: | 202011587110.4 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112596863A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 杨正刚;李小芬;杨育;易文峰 | 申请(专利权)人: | 南方电网深圳数字电网研究院有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/50;G06F9/54;G06N3/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黄广龙 |
地址: | 518000 广东省深圳市南山区沙河街道高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监控 训练 任务 方法 系统 计算机 存储 介质 | ||
本申请公开了一种监控训练任务的方法、系统及计算机存储介质,涉及计算机技术领域,方法包括接收待处理的训练任务的启动请求;将启动请求发送给kubernetes集群的主节点,以使主节点创建相应的容器;获取容器的启动状态;根据启动状态,将训练任务的训练信息通过消息队列发送给容器,以控制容器的训练行为。因此,可以通过统一的应用平台,接收每一训练任务的启动请求,并通过统一的应用平台与kubernetes集群通信连接,实现在一个平台上对kubernetes集群中每一容器的训练行为的操作,减少人为干预的行为,从而提升管理训练任务的便利性。
技术领域
本申请涉及计算机技术领域,特别涉及一种监控训练任务的方法、系统及计算机存储介质。
背景技术
随着人工智能的飞速发展,深度学习被广泛应用于日常生活中。基于kubernetes集群的部署方式由于其环境部署更为简单,被大量应用。但是基于kubernetes集群的部署方法,主节点对于容器的操作仅限于环境的部署,当需要对容器进行操作时,需要登录到对应的容器进行操作,对于多个容器的场景,需要人为管理多个容器的训练任务,导致管理训练任务不够便利。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提供了一种监控训练任务的方法、系统及计算机存储介质,能够提升管理训练任务的便利性。
根据本申请第一方面实施例的一种监控训练任务的方法,所述方法包括:
接收待处理的训练任务的启动请求;
将所述启动请求发送给kubernetes集群的主节点,以使所述主节点创建相应的容器;
获取所述容器的启动状态;
根据所述启动状态,将所述训练任务的训练信息通过消息队列发送给所述容器,以控制所述容器的训练行为。
根据本申请的上述实施例,至少具有如下有益效果:可以通过统一的应用平台,接收每一训练任务的启动请求,并通过统一的应用平台与kubernetes集群通信连接,实现在一个平台上对kubernetes集群中每一容器的训练行为的操作,减少人为干预的行为,从而提升管理训练任务的便利性。
根据本申请第一方面一些实施例的监控训练任务的方法,所述将所述启动请求发送给kubernetes集群的主节点,以使所述主节点创建相应的容器,包括:
获取kubernetes集群中服务器的空闲数量;
根据所述服务器的空闲数量,将待处理的训练任务的启动请求发送给kubernetes集群的主节点,以使所述主节点创建相应的容器。
因此,通过空闲数量可以知道kubernetes集群是否可以启动一个训练任务,从而可以根据该空闲数量发送,以保证每一待处理的训练任务均被执行。
根据本申请第一方面一些实施例的监控训练任务的方法,所述根据所述启动状态,将所述训练任务的训练信息通过消息队列发送给所述容器,以控制所述容器的训练行为,包括:
获取所述训练任务的训练素材;
将所述训练素材通过消息队列发送给所述容器;
通过消息队列发送启动消息指令给所述容器,以使所述容器根据所述训练素材进行训练。
因此,通过在统一平台将训练素材发送给容器,避免登录到容器中进行训练素材的处理,从而提升管理训练任务的便利性。
根据本申请第一方面一些实施例的监控训练任务的方法,所述根据所述启动状态,将所述训练任务的训练信息通过消息队列发送给所述容器,以控制所述容器的训练行为,还包括:
接收所述训练任务的暂停指令;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网深圳数字电网研究院有限公司,未经南方电网深圳数字电网研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011587110.4/2.html,转载请声明来源钻瓜专利网。