[发明专利]分布式深度学习流调度方法、系统、设备有效
申请号: | 201911363582.9 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111131080B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 虞红芳;孙罡;周攀;和新树 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L12/861 | 分类号: | H04L12/861;H04L12/935;H04L12/865;H04L12/24;G06F9/50 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 陈选中 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 深度 学习 调度 方法 系统 设备 | ||
本发明公开了一种分布式深度学习流调度方法、系统、设备,涉及计算机技术领域。分布式深度学习流调度设备能够部署分布式深度学习流调度系统,并采用分布式深度学习流调度方法实现流调度。本发明方法从DDL训练的流特点出发,提出采用高精度改善优先的调度方式,对DDL训练任务进行数据流调度。本发明对DDL训练任务进行优先级划分,并周期性的更新DDL训练任务的优先级。其中通过DDL训练任务的历史数据预测该任务未来一个调度周期的精度改善情况,并以此进行排序进而确定DDL训练任务的优先级。同时,本发明考虑了网络优先级有限的情况,并通过全局优先级映射为本地优先级的方式,实现了少量优先级模拟无限优先级的可能。
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种基于任务阶段感知的分布式深度学习流调度方法、系统、设备。
背景技术
深度学习(Deep Learning,DL)作为机器学习(Machine Learning,ML)领域的重要分支掀起研究浪潮并在诸如计算机视觉、语音识别、自然语言处理等多个领域取得重大突破。深度学习通过设计神经网络模型对样本数据进行深层分析,通过长时间的迭代训练过程找到网络结构参数的最佳配置方案,从而提取数据更加高层、抽象化的特征,并将这些学习到的抽象特征应用于对新样本的分类问题及其它处理。为了寻找网络结构参数的最佳配置方案,深度学习往往需要设计多种不同的神经网络结构,每种不同的神经网络结构都需要按照某种算法进行多次迭代训练。这些算法中往往又含有若干人为设置的“超参数”,不同的“超参数”也会影响神经网络模型的性能。因此我们又需要采用多种不同的“超参数”配置方案,使用每一种“超参数”配置方案对模型进行训练并得到其对应的最佳模型参数配置方案。因此,即使同一个深度学习任务也可能包含许多训练任务,分别使用不同的神经网络结构和“超参数”配置方案进行模型训练,选择性能最佳的神经网络模型。在同一种网络结构和“超参数”配置方案下,随着训练过程的迭代次数不断增加,模型精度也会随之增加并最终收敛,当精度曲线收敛时对应的模型参数配置方案就是我们所要获得的当前网络结构和“超参数”配置方案下的最佳神经网络参数配置方案。
随着深度学习应用范围和任务难度不断增大,深度学习的数据集和模型规模也日益庞大,仅靠单一计算设备的存储和计算能力无法承载整个深度学习任务的完整训练过程。同时,深度学习任务的样本数据可能来源于分布在多个地域的数据中心,而出于隐私及安全性相关的规定和考虑,这些数据并不能被直接复制到同一个数据中心进行训练。为了应对单一计算设备算力局限性及无可避免的样本数据分布式问题,DDL(Distributed DeepLearning,DDL)应运而生。
DDL将完整的训练任务分担到分布式计算机集群中。集群中的每一台GPU(节点)设备承担一部分学习任务,多个GPU设备独立且并行地进行每一次迭代的计算任务,在每一轮迭代完成之后设备之间通过相互通信进行同步并更新全局模型,并进行下一轮迭代任务直到整个模型收敛。在实际应用中,DDL任务的训练过程通常会采用阶段式的训练方法,即将整个任务的学习过程分割为若干阶段,在每个阶段结束后对模型的训练精度效果进行评估,一些精度表现不佳的训练任务会被终止从而可以尽早开始尝试其它的模型结构或超参配置方案。以目前DDL常用的参数服务器(Parameter Server,PS)框架以及数据并行模式为例,整个模型结构参数被分布式地存储在若干参数服务器中,训练样本则被分配到不同的工作节点上,各工作节点根据本地样本数据进行独立训练并将本地更新值发送给参数服务器进行更新同步,该过程也叫做“Push”,参数服务器接收到来自不同工作节点的计算结果之后对其存储的全局模型参数进行更新,而后将更新过后的模型参数发送给工作节点用于下一轮迭代计算,该过程又称为“Pull”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911363582.9/2.html,转载请声明来源钻瓜专利网。