[发明专利]面向分布式机器学习的数据传输方法及系统有效
申请号: | 201911227383.5 | 申请日: | 2019-12-04 |
公开(公告)号: | CN111211988B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 秦阳;杨伟宏;江祖凯;余智钦 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | H04L47/12 | 分类号: | H04L47/12;H04L47/22;H04L67/10;G06N20/00 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 张美君 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 分布式 机器 学习 数据传输 方法 系统 | ||
本发明公开一种面向分布式机器学习的数据传输方法及系统。该方法包括:获取待传输数据,基于待传输数据形成至少两个原始数据流,每一原始数据流包括至少两个原始数据包;基于数据中心网络拓扑结构,获取每一原始数据流对应的目标传输速率;基于每一原始数据流对应的目标传输速率,同步将至少两个原始数据流中的原始数据包通过交换机发送给对应的接收方服务器;实时监控预设时间段内,能否接收到接收方服务器通过交换机发送的拥塞通知包,获取拥塞监控结果;基于拥塞监控结果进行传输速率调节,更新每一原始数据流对应的目标传输速率。该方法可以有效平衡因数据中心网络拓扑结构中网络拥塞而造成数据传输过程中的传输时间差异。
技术领域
本发明涉及分布式计算技术领域,尤其涉及一种面向分布式机器学习的数据传输方法及系统。
背景技术
随着大数据和高效计算资源的出现,作为人工智能(Artificial Intelligence,简称AI)发展迅速领域之一的机器学习在很多应用场景(如自然语言处理、图像识别、语音识别和机器翻译等)中都取得了重大突破。但是,随着任务复杂性的增加,数据和深度学习模型的规模变得日益庞大。简单的采用单机加GPU计算的方式已经不能满足大规模深度学习模型和大规模训练数据集所要求的计算能力和存储空间。为了提高深度学习模型的训练效率,研究人员采用分布式技术来执行大规模的训练任务,以达到高效地训练出性能优良的深度学习模型的目的。海量数据是AI的基础,算力是AI的必备条件,具备强大算力的数据中心正好切合深度学习模型进行分布式训练时对算力的需求。由于现有的数据中心网络的网络协议并不能很好地适应DML网络传输的数据流特征,因此对面向分布式机器学习(Distributed Machine Learning,以下简称为DML)的数据中心相关关键技术进行研究具有必要性和重要性。
为了提高分布式计算的通信效率,分布式计算的网络方面应用了具有更高带宽、更低时延的RDMA(Remote Direct Memory Access的缩写,即远程直接存取)技术。RoCEv2是基于UDP/IP实现的RDMA协议,但由于RoCEv2协议没有对发送方进行速率控制,因此会导致发送方发送过多的数据而造成网络拥塞。为此,需研究探索关于RoCEv2传输协议的改进,其中一种重要的改进协议就是DCQCN(Data Center Quantized Congestion Notification的缩写,即数据中心量化拥塞通知)。在DCQCN中,交换机以一定概率为数据包打上CN(Congestion Notification的缩写,即拥塞通知)标识。当接收到带有CN标识的数据包,接受方会将一个CNP(Congestion Notification Packet的缩写,即拥塞通知包)发送给发送方。此时,发送方在接收到CNP后会对发送速率进行调整。
在多瓶颈的场景下使用DCQCN协议进行数据传输,如果数据流经过越多的瓶颈,其被CN标识的概率就会更大。这样一来,经过瓶颈多的数据流会获得更少的带宽,而那些瓶颈数量少的数据流则能获得较大的带宽,它们可以率先完成数据传输。很显然,DCQCN协议对瓶颈数量多的数据流是不公平的。对于分布式机器学习的训练任务而言,数据流传输时间的差异会影响训练性能。具体来说,遭遇多瓶颈的数据流会拖慢一次迭代的完成时间,从而影响下一次迭代任务的进行。
发明内容
本发明提供一种面向分布式机器学习的数据传输方法及系统,以解决当前面向分布式机器学习的数据传输过程中因网络拥塞而导致数据流传输时间差异较大的问题。
本发明提供一种面向分布式机器学习的数据传输方法,包括发送方服务器执行的如下步骤:
获取待传输数据,基于所述待传输数据形成至少两个原始数据流,每一所述原始数据流包括至少两个原始数据包;
基于数据中心网络拓扑结构,获取每一所述原始数据流对应的目标传输速率;
基于每一所述原始数据流对应的目标传输速率,同步将至少两个所述原始数据流中的原始数据包通过交换机发送给对应的接收方服务器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911227383.5/2.html,转载请声明来源钻瓜专利网。