[发明专利]一种用于提交深度学习训练任务的方法和装置有效
申请号: | 201910578812.7 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110389834B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 王超 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 白天明;解婷婷 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 提交 深度 学习 训练 任务 方法 装置 | ||
本发明公开了一种用于提交深度学习训练任务的方法。该方法包括:在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量;采用任务解析模块解析所提交的深度学习训练任务,并且根据由算法开发人员选定的训练规格,为经解析的深度学习训练任务分配计算机群的资源。通过采用任务解析模块解析深度学习训练任务和分配计算机群的资源,可以减少算法开发人员配置和监控训练任务所花费的时间精力,降低配置和监控训练任务的难度。还公开了对应的用于提交深度学习训练任务的装置。
技术领域
本发明涉及深度学习技术,尤指一种用于提交深度学习训练任务的方法和装置。
背景技术
深度学习训练任务,尤其是大规模和长时间训练任务提交的过程是十分繁琐,对于单机单卡步骤较为简单,然而单机多卡和多机多卡的分布式训练会让算法开发人员花费大量时间去配置和监控训练任务。
发明内容
为了解决上述技术问题,本发明提供了用于提交调试深度学习训练任务的方法和装置,能够减少算法开发人员配置训练任务的时间和难度。
为了达到本发明目的,本发明提供了一种用于提交深度学习训练任务的方法,该方法包括:
在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量;
采用任务解析模块解析所提交的深度学习训练任务,并且根据由算法开发人员选定的训练规格,为经解析的深度学习训练任务分配计算机群的资源。
在一个可选的实施例中,在在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量的步骤之前,该方法还包括:
预设任务解析模块,以使任务解析模块采用其中的训练任务模板解析深度学习训练任务并且为其分配计算机群的资源;其中,通过以下方式预设任务解析模块;
在任务解析模块中设置候选训练方式;
在任务解析模块中设置候选框架;
设置候选训练方式与候选框架的对应关系。
在一个可选的实施例中,采用任务解析模块解析所提交的深度学习训练任务,并且根据由算法开发人员选定的训练规格,为经解析的深度学习训练任务分配计算机群的资源的步骤包括:
采用任务解析模块获取由算法开发人员选定的训练规格以及训练脚本;
采用任务解析模块解析深度学习训练任务的训练方式、框架以及深度学习训练任务的训练方式和框架的对应关系;
生成针对深度学习训练任务的训练任务模板,以用于为经解析的深度学习训练任务分配计算机群的资源。
在一个可选的实施例中,在采用任务解析模块以选定的训练规格解析训练任务,并且将训练任务分配到相应的计算资源的步骤之后,该方法还包括:
在训练界面中呈现训练情况,并且接收算法开发人员对于深度学习训练任务的操作指令;
根据接收到的操作指令,对训练任务进行相应的操作;其中,操作包括:暂停训练任务、终止训练任务、修改训练任务的训练脚本以及重新启动训练任务。
在一个可选的实施例中,该方法还包括:
在训练界面中呈现在下列各项中的一项或更多项:深度学习训练任务的任务列表、任务提交区和交互式代码编辑区。
一方面,本发明实施例提供了一种用于提交深度学习训练任务的装置,包括存储器和处理器,
存储器用于存储计算机可读指令;
处理器用于执行计算机可读指令,以执行如下操作:
在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910578812.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种处理器的性能调度方法及系统
- 下一篇:一种游戏性能监控方法和装置