[发明专利]基于容器集群的深度学习任务服务质量保证方法和系统有效
申请号: | 201910672078.0 | 申请日: | 2019-07-24 |
公开(公告)号: | CN110413391B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 钱诗友;邢思凯;曹健;薛广涛;李明禄 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06N3/04;G06N3/08 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 庄文莉 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 容器 集群 深度 学习 任务 服务 质量保证 方法 系统 | ||
本发明提供了一种基于容器集群的深度学习任务服务质量保证方法和系统。基于容器的运行平台接收任务,形成任务队列,预测各个任务的所需资源需求,根据所需资源需求对队列中的任务形成优先等级,依据优先等级对任务进行调度;解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正。本发明易用性高且资源利用率高,用户在提交深度学习任务时只需指定服务质量,无需指定复杂的资源配置,会通过任务调度和任务扩展的方式保证其服务质量;并且充分利用了深度学习任务的特点,用更少的资源保证任务的服务质量。
技术领域
本发明涉及神经网络模型训练,提出一种基于容器集群的深度学习任务服务质量保证方法和系统。
背景技术
深度学习对计算资源严重依赖的特点使得深度学习模型训练一般不能在本地完成,需要交付给集群来完成。深度学习任务的另一个特点是反馈驱动的探索性任务。由于深度学习任务固有的试错机制,用户通常会尝试提交一个深度学习任务的多种参数配置版本,根据反馈结果杀死或提交更多的深度学习任务,一个典型的过程是超参数搜索。
用户在提交深度学习任务时,需要配置资源请求,比如GPU的个数、内存的大小、磁盘大小等。当需要考虑分布式深度学习、GPU亲和性、不同任务间的干扰、资源利用率等因素时,深度学习任务的资源配置变得更加复杂。除此之外,用户不能基于给定的资源配置方案来确定深度学习任务的完成时间。因此,用户会在未知的等待中浪费时间,而用户关心的只是低层次的资源度量(如GPU,内存等)到高层次的服务质量之间的映射关系。因此,如果允许用户在提交深度学习任务时只指定高层次的服务质量(QoS),集群调度器负责高层次服务质量到低层次资源度量的映射,即满足任务的服务质量,那么会提高用户提交深度学习任务的便捷性,同时资源配置可以得到优化,从而提高集群资源利用率。
现有的集群调度器把一个深度学习任务看作为一个大数据处理任务,在深度学习任务启动时分配固定数量的资源,然后等待深度学习任务完成后释放资源。这类调度器的缺点主要有两方面。第一,用户易用性低,这是因为调度器只能满足低层次的资源度量的要求,不能提供高层次的服务质量的保证。第二,集群资源利用率低,这是因为用户难以准确地配置任务的资源需求,并且大多数用户在提交任务时都会请求过量的资源,这造成了资源的浪费。
与本申请相关的现有技术是专利文献CN 106529682 A,公开了一种在大数据集群中处理深度学习任务的方法和装置,其中方法包括:接收深度学习任务;从大数据集群的节点中分配可执行该深度学习任务的至少一个节点;调用深度学习库接口,在分配的每个节点上启动与该深度学习任务对应的子任务;从所述大数据集群的文件系统中获取用于该深度学习任务的数据;将获取的用于该深度学习任务的数据推送到相应的子任务上进行执行,并将子任务返回的执行结果数据保存到大数据集群的文件系统中的指定位置。该技术方案可以有效地在大数据集群中处理深度学习任务,利用了大数据集群任务并行执行、数据存储量大的优点,可将深度学习与大数据计算进行有机结合,大大提高深度学习任务的执行效率。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种提出一种基于容器集群的深度学习任务服务质量保证方法和系统。
根据本发明提供的一种基于容器集群的深度学习任务服务质量保证方法,包括:
调度步骤:基于容器的运行平台接收任务,形成任务队列,预测任务的所需资源需求,根据所需资源需求对任务队列中的任务形成优先等级,依据优先等级对任务进行调度;
扩展步骤:解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正。
优选地,所述调度步骤包括:
形成队列步骤:接收深度学习训练任务,所述训练任务中包括期望完成时间、优先等级,将训练任务加入到任务队列中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910672078.0/2.html,转载请声明来源钻瓜专利网。