[发明专利]深度学习模型的分布式训练方法、装置、设备及存储介质在审
申请号: | 202110884863.X | 申请日: | 2021-08-03 |
公开(公告)号: | CN113610241A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 田丽红;胡辰;许涛 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 陈金忠 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度 学习 模型 分布式 训练 方法 装置 设备 存储 介质 | ||
本发明实施例公开了一种深度学习模型的分布式训练方法、装置、设备及存储介质。该方法包括:获取目标深度学习模型的TensorFlow训练代码;确定所述TensorFlow训练代码的目标逻辑及封装类型;根据与所述目标逻辑及封装类型匹配的处理策略对所述TensorFlow训练代码进行调整;运行调整后的TensorFlow训练代码,以实现对所述目标深度学习模型的Horovod分布式训练。上述技术方案在Tensorflow代码背景下,自动实现深度学习模型的Horovod分布式训练计算的技术效果。
技术领域
本发明实施例涉及分布式计算技术领域,尤其涉及一种深度学习模型的Horovod分布式训练方法、装置、设备及存储介质。
背景技术
目前人工智能领域分布式计算主要采用数据并行方式,有两种工程实现方法:参数服务器(Parameter Server)和Ring-AllReduce架构。其中,Horovod是基于Ring-AllReduce方法的深度分布式学习插件,由Uber构建并开源,兼容TensorFlow、PyTorch等深度学习主流计算框架,能够简化并加速分布式深度学习项目的启动与运行。通过利用消息传递接口(简称MPI)实现应用环状规约,显著提升TensorFlow等模型框架的实用性与性能表现。
然而,Horovod的问题在于对异构加速平台功能的支持不完善,例如,对ROCm平台(Radeon Open Compute platform,Radeon开放计算平台)功能的支持不完善,且在Tensorflow代码背景下,无法自动地实现深度学习模型的Horovod分布式训练计算。
发明内容
本发明实施例提供一种深度学习模型的Horovod分布式训练方法、装置、设备及存储介质,以自动地实现深度学习模型的Horovod分布式训练计算。
第一方面,本发明实施例提供了一种深度学习模型的Horovod分布式训练方法,包括:
获取目标深度学习模型的TensorFlow训练代码;
确定所述TensorFlow训练代码的目标逻辑及封装类型;
根据与所述目标逻辑及封装类型匹配的处理策略对所述TensorFlow训练代码进行调整;
运行调整后的TensorFlow训练代码,以实现对所述目标深度学习模型的Horovod分布式训练。
可选的,所述目标逻辑及封装类型至少包括:逻辑简单非高度封装、逻辑复杂非高度封装、逻辑简单高度封装和逻辑复杂高度封装。
上述技术方案,创造性地将目标深度学习模型的TensorFlow训练代码按照逻辑复杂程度和封装程度进行类型划分,进而可以采用不同的方式针对不同类型的目标深度学习模型实现Horovod分布式训练的自动化。
可选的,当所述目标逻辑及封装类型为逻辑简单非高度封装时,根据与所述目标逻辑及封装类型匹配的处理策略对所述TensorFlow训练代码进行调整,包括:
在训练主文件中导入配置Tensorflow接口的Horovod模块;
初始化所述Horovod模块,并在对各加速卡进行配置参数设置之后,将各加速卡与进程进行一对一绑定;
根据加速卡总数量按倍数增大学习率;
在与计算汇总操作对应的目标进程上保存检测点,并重新定义Tensorflow会话。
上述技术方案,针对TensorFlow训练代码逻辑简单且非高度封装的目标深度学习模型提供了自动化实现深度学习模型的Horovod分布式训练计算的方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110884863.X/2.html,转载请声明来源钻瓜专利网。