[发明专利]用于快速分布式训练的归约服务器在审
申请号: | 202180044539.5 | 申请日: | 2021-10-14 |
公开(公告)号: | CN115917509A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 蓝昶;苏鲁什·拉德普尔 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 快速 分布式 训练 服务器 | ||
一种数据处理系统,所述数据处理系统包括:一个或多个主机处理设备,所述一个或多个主机处理设备可以被配置成支持多个虚拟机的实例化,使得第一虚拟机集运行一个或多个工作器进程,每个工作器进程对相应的数据集进行操作以产生相应的梯度。主机处理设备可以被配置成支持运行一个或多个归约器进程的第二虚拟机集的实例化,所述一个或多个归约器进程对由每个工作器进程产生的每个相应的梯度进行操作以产生聚合梯度。一个或多个归约器进程可以使聚合梯度被广播给每个工作器进程。
相关申请的交叉引用
本申请是于2020年10月21日提交的美国申请No.17/076,393的继续,该美国申请的公开内容通过引用并入本文。
背景技术
一般而言,机器学习依靠统计技术来基于样本数据建立模型。机器学习给计算机系统提供了基于样本数据学习以便改进与给定任务相关联的性能(例如,在不用被显式地编程来这样做的情况下做出准确的预测或判定)的能力。可以基于以下三个参数表征机器学习:经验(“E”)、任务(“T”)和性能量度(“P”)。使用那三个参数的机器学习的标准定义如下:计算机程序或系统被视为关于任务T根据经验E学习,如果该程序或系统的如由P测量的性能随经验E而改进。经验E包括样本数据,该样本数据更通常被称为训练数据。深度学习是在处理数据例如训练数据时依靠神经网络概念的机器学习形式。
互联网已成为来自全球各种来源(例如,互联网搜索引擎、电子商务平台等)的庞大数据的来源。此庞大数据通常被称为大数据。它提供用于训练各种应用(例如欺诈检测、语音识别、对象识别、决策等)的数据来源。处理可作为大数据获得的大量数据通常需要使用云计算资源,其中数据被跨多个机器分割或者分解以进行分布式处理。
发明内容
跨多个机器分发与用于机器学习的训练数据相关联的数据处理为快速分布式训练提供了可能性,但是涉及诸如与处理机器当中的数据处理和通信两者相关联的成本、时延、效率和瓶颈的参数的考虑和管理。所公开的技术的一个方面是备置为同步训练提供集体通信原语的系统、架构系统或技术,所述同步训练能够将吞吐量改进和allreduce(全归约)的吞吐量的两(2)倍一样多。
所公开的技术的一个方面可以在一种形式上是一种数据处理系统。该系统可以包括一个或多个主机处理设备,该一个或多个主机处理设备支持多个虚拟机的实例化。该系统可以进一步包括:第一虚拟机集,该第一虚拟机集包括多个虚拟机中的一个或多个,该第一虚拟机集运行一个或多个工作器(worker)进程,每个工作器进程对相应的数据集进行操作以产生相应的梯度;以及第二虚拟机集,该第二虚拟机集包括多个虚拟机中的一个或多个,该第二虚拟机集运行一个或多个归约器(reducer)进程,该一个或多个归约器进程对由每个工作器进程产生的每个相应的梯度的至少一部分进行操作以产生聚合梯度。该一个或多个归约器进程使聚合梯度被广播给每个工作器进程。
所公开的系统的技术的其他方面可以包括,例如,每个相应的数据集包括相等大小的数据块。相等大小的数据块可以包括通过分割输入数据流生成的数据块。相等大小的数据块可以具有与在一个或多个虚拟机上运行的归约器进程的数目成比例的大小。
所公开的系统的技术的其他方面可以包括,例如,一个或多个主机处理设备包括用于托管第一虚拟机集的至少一个图形处理单元(GPU)。一个或多个主机处理设备可以例如同样包括用于托管第二虚拟机集的至少一个中央处理单元(CPU)。
所公开的系统的技术的其他方面可以包括,例如,与第一虚拟机集的使用相关联的第一总带宽等于与第二虚拟机集的使用相关联的第二总带宽。
所公开的系统的技术的其他方面可以包括,例如,一个或多个归约器进程在通过由一个或多个归约器进程当中的第一归约器进程收到梯度中的第一个梯度所限定的时间期限内接受梯度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180044539.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:固体电解质及固体电解质电池
- 下一篇:用于生产半导体晶片的方法