[发明专利]分布式深度学习推理云平台任务调度方法有效
申请号: | 202010865843.3 | 申请日: | 2020-08-25 |
公开(公告)号: | CN111866187B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 谭光明;马立贤;邵恩;张春明;段勃 | 申请(专利权)人: | 中科院计算所西部高等技术研究院 |
主分类号: | H04L67/10 | 分类号: | H04L67/10;H04L67/60 |
代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 胡博文 |
地址: | 401121 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 深度 学习 推理 平台 任务 调度 方法 | ||
本发明提供的一种分布式深度学习推理云平台任务调度方法,包括以下步骤:S1.将用户在云平台上创建的任务输入任务队列中;S2.任务控制器从任务队列中提取目标任务,并将目标任务对应的服务分割成若干子服务进行分布式处理;S3.并行模式选择器根据子服务生成相应的模型;S4.任务执行器根据并行模式选择器所产生的模型执行对应的子服务;通过本发明,能够将用户所提交的任务在云环境下进行分布式处理,对于分布式操作下的每一个节点选择加速卡资源状态下的最优并行参数,从而提高任务的运行效率,并能够确保云环境下的加速卡设备的利用率。
技术领域
本发明涉及一种服务调度方法,尤其涉及一种分布式深度学习推理云平台任务调度方法。
背景技术
深度学习的训练与推理任务是一种计算密集型任务,但推理任务与训练所不同的是推理任务的计算周期不是长时间与固定某一时间段,而是随着时间的变化而变化,通常在白天到夜晚计算密集流量高,而在夜晚至凌晨流量低计算量相对较少。现有技术中,对于云平台的推理任务的运行效率较低,而且云环境下的加速卡设备的利用率也较低。
因此,为了解决上述技术问题,亟需提出一种新的技术手段。
发明内容
有鉴于此,本发明的目的是提供一种分布式深度学习推理云平台任务调度方法,能够将用户所提交的任务在云环境下进行分布式处理,对于分布式操作下的每一个节点选择加速卡资源状态下的最优并行参数,从而提高任务的运行效率,并能够确保云环境下的加速卡设备的利用率。
本发明提供的一种分布式深度学习推理云平台任务调度方法,包括以下步骤:
S1.将用户在云平台上创建的任务输入任务队列中;
S2.任务控制器从任务队列中提取目标任务,并将目标任务对应的服务分割成若干子服务进行分布式处理;
S3.并行模式选择器根据子服务生成相应的模型;
S4.任务执行器根据并行模式选择器所产生的模型执行对应的子服务。
进一步,步骤S2中,在任务控制器从任务队列中提取目标任务前,由资源监控器判断当前是否可执行任务:
若当前集群资源无空闲或者空闲资源较低,那么任务队列中的任务将处于等待状态;
若当前集群资源具有空余并满足任务执行需求时,则判断当前可执行任务。
进一步,任务控制器提取目标任务具体如下:
当前可执行任务时,任务控制器从任务队列中选择最先进入到任务队列的任务作为目标任务。
进一步,步骤S2中,任务控制器判断目标任务是否具有对应的服务,若不存在,则创建目标任务的服务。
进一步,并行模式选择器基于Q-learning算法选择并行参数并生成相应的模型,具体如下:
基于任务完成时间T、加速卡利用率U以及加速卡现存使用量M构建奖励函数Reward:
Reward=μ1N(Tm-T)+μ2N(Um-U)+μ3N(Mm-M);
其中,μ1、μ2和μ3均为调整系数,N(·)为归一化函数;
构建状态集S,其中,状态集S由推理平均准确率A、推理任务完成时间T、加速卡利用率U和加速卡现存使用量M构成;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科院计算所西部高等技术研究院,未经中科院计算所西部高等技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010865843.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:工作流作业调度控制方法
- 下一篇:一种编织机无级张力调整的锭子