[发明专利]监控训练任务的方法、系统及计算机存储介质在审
申请号: | 202011587110.4 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112596863A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 杨正刚;李小芬;杨育;易文峰 | 申请(专利权)人: | 南方电网深圳数字电网研究院有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/50;G06F9/54;G06N3/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黄广龙 |
地址: | 518000 广东省深圳市南山区沙河街道高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监控 训练 任务 方法 系统 计算机 存储 介质 | ||
1.一种监控训练任务的方法,其特征在于,所述方法包括:
接收待处理的训练任务的启动请求;
将所述启动请求发送给kubernetes集群的主节点,以使所述主节点创建相应的容器;
获取所述容器的启动状态;
根据所述启动状态,将所述训练任务的训练信息通过消息队列发送给所述容器,以控制所述容器的训练行为。
2.根据权利要求1所述的监控训练任务的方法,其特征在于,
所述将所述启动请求发送给kubernetes集群的主节点,以使所述主节点创建相应的容器,包括:
获取kubernetes集群中服务器的空闲数量;
根据所述服务器的空闲数量,将待处理的训练任务的启动请求发送给kubernetes集群的主节点,以使所述主节点创建相应的容器。
3.根据权利要求1所述的监控训练任务的方法,其特征在于,
所述根据所述启动状态,将所述训练任务的训练信息通过消息队列发送给所述容器,以控制所述容器的训练行为,包括:
获取所述训练任务的训练素材;
将所述训练素材通过消息队列发送给所述容器;
通过消息队列发送启动消息指令给所述容器,以使所述容器根据所述训练素材进行训练。
4.根据权利要求3所述的监控训练任务的方法,其特征在于,
所述根据所述启动状态,将所述训练任务的训练信息通过消息队列发送给所述容器,以控制所述容器的训练行为,还包括:
接收所述训练任务的暂停指令;
将所述暂停指令通过所述消息队列发送给所述容器,以暂停所述容器的训练;
获取所述训练任务新的训练素材和/或所述训练任务的训练参数;
将新的所述训练素材和/或所述训练参数通过消息队列发送给所述容器。
5.根据权利要求3或4所述的监控训练任务的方法,其特征在于,
所述根据所述启动状态,将所述训练任务的训练信息通过消息队列发送给所述容器,以控制所述容器的训练行为,还包括:
接收所述训练任务的重启指令;
将所述重启指令通过所述消息队列发送到所述容器,以重新启动所述容器的训练任务。
6.根据权利要求1所述的监控训练任务的方法,其特征在于,还包括:
周期获取所述容器的操作日志,并将所述操作日志保存。
7.根据权利要求6所述的监控训练任务的方法,其特征在于,还包括:
接收所述训练任务的进度查询指令;
根据所述进度查询指令,获取所述训练任务的所述操作日志;
根据所述操作日志,将所述训练任务的进度信息图像化显示。
8.一种监控训练任务的系统,其特征在于,包括:
至少一个服务器,所述服务器用于部署Kubernetes集群;
存储器,所述存储器与所述服务器通信连接;
AI平台,所述AI平台与所述服务器通信连接;所述AI平台执行所述指令时实现如权利要求1至7任一项所述的监控训练任务的方法,所述Kubernetes集群用于根据所述AI平台的操作指令进行容器创建以及训练任务执行。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的监控训练任务的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网深圳数字电网研究院有限公司,未经南方电网深圳数字电网研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011587110.4/1.html,转载请声明来源钻瓜专利网。