[发明专利]用于快速分布式训练的归约服务器在审
申请号: | 202180044539.5 | 申请日: | 2021-10-14 |
公开(公告)号: | CN115917509A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 蓝昶;苏鲁什·拉德普尔 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 快速 分布式 训练 服务器 | ||
1.一种数据处理系统,包括:
一个或多个主机处理设备,所述一个或多个主机处理设备支持多个虚拟机的实例化;
第一虚拟机集,所述第一虚拟机集包括所述多个虚拟机中的一个或多个,所述第一虚拟机集运行一个或多个工作器进程,每个工作器进程对相应的数据集进行操作以产生相应的梯度;以及
第二虚拟机集,所述第二虚拟机集包括所述多个虚拟机中的一个或多个,所述第二虚拟机集运行一个或多个归约器进程,所述一个或多个归约器进程对由每个工作器进程产生的每个相应的梯度的至少一部分进行操作以产生聚合梯度;
其中,所述一个或多个归约器进程使所述聚合梯度被广播给每个工作器进程。
2.根据权利要求1所述的系统,其中,每一个所述相应的数据集包括相等大小的数据块。
3.根据权利要求2所述的系统,其中,所述相等大小的数据块包括通过分割输入数据流生成的数据块。
4.根据权利要求2所述的系统,其中,所述相等大小的数据块具有与在所述一个或多个虚拟机上运行的归约器进程的数目成比例的大小。
5.根据权利要求1所述的系统,其中,所述一个或多个主机处理设备包括用于托管所述第一虚拟机集的至少一个图形处理单元GPU。
6.根据权利要求1所述的系统,其中,所述一个或多个主机处理设备包括用于托管所述第二虚拟机集的至少一个中央处理单元CPU。
7.根据权利要求1所述的系统,其中,与所述第一虚拟机集的使用相关联的第一总带宽等于与所述第二虚拟机集的使用相关联的第二总带宽。
8.根据权利要求1所述的系统,其中,所述一个或多个归约器进程在通过由所述一个或多个归约器进程当中的第一归约器进程接收到梯度中的第一个梯度所限定的时间期限内接受所述梯度。
9.根据权利要求1所述的系统,其中,所述一个或多个工作器进程被实例化为应用编程接口API库的通信原语或者与API库分开。
10.根据权利要求9所述的系统,其中,在所述一个或多个工作器进程被实例化为API库的通信原语时,被实例化的工作器进程从所述一个或多个归约器进程推送并拉取梯度。
11.根据权利要求9所述的系统,其中,在所述一个或多个工作器进程被实例化为与API库分开时,归约器进程函数之间的连接管理所述一个或多个工作器处理器与所述一个或多个归约器进程之间的连接和数据转移。
12.根据权利要求1所述的系统,其中,所述一个或多个工作器进程中的每个工作器进程将由每个工作器进程产生的梯度分区成相应的梯度分块,并且给定工作器进程从第一归约进程拉取第一梯度分块,同时它向所述第一归约进程推送第二梯度分块。
13.根据权利要求1所述的系统,其中,所述工作器进程在训练神经网络的场境中根据小批次随机梯度下降来调整神经网络的权重系数。
14.根据权利要求1所述的系统,其中,由所述一个或多个归约器进程仅在忽略梯度批次的剩余部分的从所述一个或多个工作器进程的子集接收到的梯度批次的子集上计算归约,所述子集具有预定大小m或者所述子集的大小由在接收到第一个梯度批次之后直到预定期限T接收到的梯度批次确定。
15.一种用于同步分布式训练的数据处理方法,包括:
实例化运行一个或多个工作器进程的第一虚拟机集,每个工作器进程对相应的数据块进行操作以各自产生相应的梯度;
实例化包括归约服务器的第二虚拟机集,所述第二虚拟机集运行归约器进程,所述归约器进程对每个相应的梯度的至少一部分进行操作以生成聚合梯度;以及
由所述归约服务器向所述第一虚拟机集广播所述聚合梯度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180044539.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:固体电解质及固体电解质电池
- 下一篇:用于生产半导体晶片的方法