[发明专利]分布式深度学习流调度方法、系统、设备有效
申请号: | 201911363582.9 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111131080B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 虞红芳;孙罡;周攀;和新树 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L12/861 | 分类号: | H04L12/861;H04L12/935;H04L12/865;H04L12/24;G06F9/50 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 陈选中 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 深度 学习 调度 方法 系统 设备 | ||
1.一种分布式深度学习流调度方法,其特征在于,包括以下步骤:
S1、中心协调节点初始化
S2、中心协调节点为每一个DDL任务随机选择一个计算节点,并加入到WorkerList中;
S3、对于WorkerList中的每个计算节点,中心协调节点向该计算节点所在代理节点发送精度改善预测请求;
S4、对于WorkerList中的每个计算节点,其所在代理节点对其进行DDL任务信息精度改善值的预测,并将精度改善预测值发送至中心协调节点;
S5、中心协调节点根据高精度改善优先原则对接收到的所有精度改善预测值进行排序,得到计算节点的全局序列;
S6、对于每个代理节点,中心协调节点根据计算节点的全局序列通过本地优先级序列生成算法获取其计算节点的本地序列;
S7、对于WorkerList中的每个计算节点,中心协调节点根据本地序列,通过入端口优先级序列生成算法,获取其入端口优先级规则;
S8、对于WorkerList中的每个计算节点,中心协调节点根据本地序列,通过出端口优先级序列生成算法,获取其出端口优先级规则;
S9、对于WorkerList中的每个计算节点,中心协调节点将其入端口优先级规则和出端口优先级规则发送至其所在代理节点,代理节点据此进行数据流的优先级设置,完成本次DDL流调度;
S10、等待时长t后,跳转至步骤S1;
所述步骤S7中,对于WorkerList中的每个计算节点,其入端口优先级规则的获取方法包括以下步骤:
b1、中心协调节点为其初始化
b2、中心协调节点将与其共属一个DDL任务的其它计算节点,加入至PeerNodes中;
b3、设置PeerNodes中每个计算节点到其自身的数据流优先级,若其本地序列小于或等于交换机支持的最大优先队列数量,则中心协调节点将其入端口优先级规则的优先级设置为其本地序列,反之,中心协调节点将其入端口优先级规则的优先级设置为交换机支持的最大优先队列数量,此时完成其入端口优先级规则的获取;
所述步骤S8中,对于每个计算节点,其出端口优先级规则的获取方法为:
若其本地序列小于或等于交换机支持的最大优先队列数量,则中心协调节点将其出端口优先级规则的优先级设置为其本地序列,反之,中心协调节点将其出端口优先级规则的优先级设置为交换机支持的最大优先队列数量,此时完成其出端口优先级规则的获取。
2.根据权利要求1所述的方法,其特征在于,所述时长t指的是T-Scheduler时间长度。
3.根据权利要求1所述的方法,其特征在于,所述中心协调节点与代理节点之间通过Socket传输数据。
4.根据权利要求1所述的方法,其特征在于,所述步骤S4中,代理节点根据从本地读取的日志文件中的训练信息,对计算节点进行DDL任务信息精度改善值的预测,所述日志文件记录了其所在代理节点的所有计算节点的训练信息。
5.根据权利要求1所述的方法,其特征在于,所述步骤S6中,对于每个代理节点,其计算节点的本地序列的获取方法包括以下步骤:
a1、中心协调节点为其初始化DDL任务集合计算节点集合
a2、中心协调节点将与其IP地址相同的计算节点加入到其NodeSet中,所述NodeSet中的各计算节点按照所述全局序列进行排列,计算节点所属DDL任务的精度改善预测值越大,该计算节点在NodeSet中的排序越靠前;
a3、中心协调节点将其NodeSet中的各计算节点所属的DDL任务,加入至其JobSet中,所述JobSet中的各DDL任务按照所述全局序列进行排列,DDL任务的精度改善预测值越大,则在JobSet中的排序越靠前;
a4、初始化其计算节点的本地序列order=0;
a5、若其NodeSet中的计算节点所属的DDL任务为其JobSet中的第一个,则中心协调节点将该DDL任务所对应的计算节点的本地序列设置为order=order+1,并将其JobSet中的第一个DDL任务剔除,使其JobSet中的原第二个DDL任务成为第一个DDL任务;
a6、重复步骤a5,直至其JobSet为空后,完成其计算节点的本地序列的获取。
6.一种分布式深度学习流调度系统,其特征在于,包括中心协调节点以及若干代理节点,所述代理节点能够运行多个分别从属于不同DDL任务的计算节点;
所述代理节点包括训练信息收集模块、提升精度预测模块和流优先级策略执行模块;
所述训练信息收集模块用于收集计算节点的DDL任务信息数据流;
所述提升精度预测模块用于通过曲线拟合的方式,对计算节点进行DDL任务信息精度改善值的预测;
所述流优先级策略执行模块用于接收入端口优先级和出端口优先级规则,以及据此进行数据流的优先级设置;
所述中心协调节点包括全局信息接收模块和优先级规则生成模块;
所述全局信息接收模块用于接收精度改善预测值,对各精度改善预测值进行排序,并根据各精度改善预测值对所有计算节点进行排序;
所述优先级规则生成模块用于为各计算节点生成入端口优先级规则和出端口优先级规则;
所述入端口优先级规则的获取方法包括以下步骤:
b1、中心协调节点为其初始化
b2、中心协调节点将与其共属一个DDL任务的其它计算节点,加入至PeerNodes中;
b3、设置PeerNodes中每个计算节点到其自身的数据流优先级,若其本地序列小于或等于交换机支持的最大优先队列数量,则中心协调节点将其入端口优先级规则的优先级设置为其本地序列,反之,中心协调节点将其入端口优先级规则的优先级设置为交换机支持的最大优先队列数量,此时完成其入端口优先级规则的获取;
所述出端口优先级规则的获取方法为:
若其本地序列小于或等于交换机支持的最大优先队列数量,则中心协调节点将其出端口优先级规则的优先级设置为其本地序列,反之,中心协调节点将其出端口优先级规则的优先级设置为交换机支持的最大优先队列数量,此时完成其出端口优先级规则的获取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911363582.9/1.html,转载请声明来源钻瓜专利网。