[发明专利]深度学习模型的分布式训练方法、装置、设备及存储介质在审
申请号: | 202110884863.X | 申请日: | 2021-08-03 |
公开(公告)号: | CN113610241A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 田丽红;胡辰;许涛 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 陈金忠 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度 学习 模型 分布式 训练 方法 装置 设备 存储 介质 | ||
1.一种深度学习模型的Horovod分布式训练方法,其特征在于,包括:
获取目标深度学习模型的TensorFlow训练代码;
确定所述TensorFlow训练代码的目标逻辑及封装类型;
根据与所述目标逻辑及封装类型匹配的处理策略对所述TensorFlow训练代码进行调整;
运行调整后的TensorFlow训练代码,以实现对所述目标深度学习模型的Horovod分布式训练。
2.根据权利要求1所述的方法,其特征在于,所述目标逻辑及封装类型至少包括:
逻辑简单非高度封装、逻辑复杂非高度封装、逻辑简单高度封装和逻辑复杂高度封装。
3.根据权利要求2所述的方法,其特征在于,当所述目标逻辑及封装类型为逻辑简单非高度封装时,根据与所述目标逻辑及封装类型匹配的处理策略对所述TensorFlow训练代码进行调整,包括:
在训练主文件中导入配置Tensorflow接口的Horovod模块;
初始化所述Horovod模块,并在对各加速卡进行配置参数设置之后,将各加速卡与进程进行一对一绑定;
根据加速卡总数量按倍数增大学习率;
在与计算汇总操作对应的目标进程上保存检测点,并重新定义Tensorflow会话。
4.根据权利要求2所述的方法,其特征在于,当所述目标逻辑及封装类型为逻辑复杂非高度封装时,根据与所述目标逻辑及封装类型匹配的处理策略对所述TensorFlow训练代码进行调整,包括:
在训练主文件中导入配置Tensorflow接口的Horovod模块;
初始化所述Horovod模块,并在对各加速卡进行配置参数设置之后,将各加速卡与进程进行一对一绑定;
广播初始变量值到与各加速卡绑定的所有进程,并重新定义Tensorflow会话;
根据加速卡总数量按倍数增大学习率。
5.根据权利要求4所述的方法,其特征在于,在运行调整后的TensorFlow训练代码时,还包括:
若存在会话实体没有会话属性的报错函数,则在所述报错函数的定义行下方一行以与所述报错函数内部原代码段相同的缩进添加获取默认计算图的代码,并对所述报错函数内部原代码段整体增加缩进;
若存在指示图形已完成且无法修改的报错,则在导入的所述配置Tensorflow接口的Horovod模块的下方一行添加清除默认图形堆栈并重置全局默认图形的代码段,并在会话定义处下方一行以相同缩进添加禁止图冻结的代码段;
若存在指示会话类型错误的报错,则在类定义内部构造方法函数外部以相同缩进添加新的会话函数代码段,并将报错代码段中的已有会话函数定义关键字替换为与所述新的会话函数代码段对应的会话函数定义关键字。
6.根据权利要求2所述的方法,其特征在于,当所述目标逻辑及封装类型为逻辑简单高度封装或逻辑复杂高度封装时,根据与所述目标逻辑及封装类型匹配的处理策略对所述TensorFlow训练代码进行调整,包括:
在训练主文件中导入配置Tensorflow接口的Horovod模块;
初始化所述Horovod模块,并在对各加速卡进行配置参数设置之后,将各加速卡与进程进行一对一绑定;
查找引用高度封装应用程序接口的关键字,并使用重新设置的配置参数对所述关键字涉及的配置参数进行替换;
根据加速卡总数量按倍数增大学习率。
7.根据权利要求6所述的方法,其特征在于,当所述目标逻辑及封装类型为逻辑简单高度封装时,在对各加速卡进行配置参数设置之后,将各加速卡与进程进行一对一绑定,包括:
在基于定义主函数的关键字对各加速卡进行配置参数设置之后,将各加速卡与进程进行一对一绑定;
当所述目标逻辑及封装类型为逻辑复杂高度封装时,在对各加速卡进行配置参数设置之后,将各加速卡与进程进行一对一绑定,包括:
在基于定义类中定义构造方法的关键字对各加速卡进行配置参数设置之后,将各加速卡与进程进行一对一绑定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110884863.X/1.html,转载请声明来源钻瓜专利网。