[发明专利]存储介质、机器学习装置和机器学习方法在审
申请号: | 202210955124.X | 申请日: | 2022-08-10 |
公开(公告)号: | CN116090587A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 奥野伸吾 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06N20/20 | 分类号: | G06N20/20;G06F9/50 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;王晓芬 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储 介质 机器 学习 装置 学习方法 | ||
提供了存储介质、机器学习装置和机器学习方法。非暂态计算机可读存储介质存储使至少一个计算机执行处理的机器学习程序,所述处理包括:在多个工作器使用通过划分训练数据而获得的多个划分数据块来并行地执行的分布式机器学习中,当多个工作器中的一个或更多个第一工作器的性能劣化时,确定第一工作器的第一计算结果没有被反映在机器学习中,并且使多个工作器中的第二工作器执行机器学习;基于第二工作器的第三计算结果来预测第一工作器的第二计算结果;以及通过使用第三计算结果和所预测的第二计算结果来执行机器学习。
技术领域
本文中讨论的实施方式涉及使用数据并行的分布式训练。
背景技术
作为深度训练中的机器学习技术,已知使用数据并行来进行分布式训练。在分布式训练中,设置具有相同神经网络(模型)的多个工作器(过程),并且向多个工作器输入不同的训练数据以执行机器学习。机器学习也可以被称为训练。
在机器学习中,每个工作器重复地执行计算、通信和模型更新过程。
计算过程包括前向传播和后向传播。
在后向传播中,可以获得权重梯度信息(在下文中可以简称为梯度),该权重梯度信息指示神经网络中接下来期望改变的权重的量,以便以减小的误差(损失)来更新权重。
在通信过程中,多个工作器通过全归约(allreduce)通信等相互交换在计算过程中计算的训练结果(例如梯度)。
在更新过程中,每个工作器聚合所有工作器中反向传播的训练结果,以获得梯度的平均值并基于该平均值更新各种参数的值。
在使用数据并行的分布式训练中,在聚合每个工作器的训练结果时在工作器之间进行通信,并且在多个工作器之中可能产生以显著低的速度进行处理的工作器。参与分布式训练的多个工作器中的这样的显著低速处理的工作器可以被称为掉队者(straggler)。
在同步型分布式训练中,掉队者可能会产生同步延迟,从而导致训练时间显著增加。
因此,已知抑制这样的掉队者对整体性能的速率确定的技术(掉队者缓解)。根据相关技术的掉队者缓解技术,通过从训练结果的聚合目标中移除掉队者并且通过仅使用剩余工作器的训练结果继续进行训练来抑制速度降低。
图14是用于说明使用数据并行的分布式训练中的相关技术的掉队者缓解技术的图。
图14示出了通过使用工作器#A至#D进行的使用数据并行的分布式训练,并且在工作器#D的计算过程中产生了延迟。例如,工作器D是掉队者,并且在工作器#A至#C中产生等待工作器D的计算过程完成的同步。
因此,假设下述缩减(scale-in)状态:作为掉队者的工作器#D被从训练结果的聚合目标中移除且用于训练的工作器的数量减少,并且通过仅使用剩余工作器#A至#C的训练结果来继续进行训练以便抑制速度降低。在图14所示的示例中,工作器的数量从四个缩减为三个。
根据上述现有技术的掉队者缓解技术,使得从分布式训练中排除的工作器(掉队者)独立地执行计算过程,即使在该工作器已经被从分布式训练中移除之后。在从被排除的工作器的延迟中恢复处理时,使该工作器返回训练并且使得该工作器处理最近的时期(epoch)。
日本公开特许公报第2021-68393号、日本公开特许公报第2019-109875号和美国专利申请公开第2020/0364608号被公开为相关技术。
发明内容
[技术问题]
然而,在相关技术的这样的掉队者缓解技术中,作为掉队者的工作器被从训练结果的聚合目标中排除。因此,分配给被从训练结果的聚合目标中排除的工作器(被排除的工作器)的训练数据部分未被用于训练。因此,训练期间的准确度劣化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210955124.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于覆盖农业栽培植物的长型片材
- 下一篇:腹腔镜手术免气腹智能悬吊拉钩