[发明专利]一种根据IP分配表更新分布式训练任务连接参数的方法有效
申请号: | 201910415272.0 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110300192B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 张春海;孙夏;冉玫美 | 申请(专利权)人: | 深圳致星科技有限公司 |
主分类号: | H04L29/12 | 分类号: | H04L29/12 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 何姣 |
地址: | 518000 广东省深圳市南山区粤海街道高新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 根据 ip 分配 更新 分布式 训练 任务 连接 参数 方法 | ||
本发明提供一种根据IP分配表更新分布式训练任务连接参数的方法,通过利用IP分配表的记录,在启动分布式训练任务前,高效、快速地将子任务的环境配置参数中的默认连接参数更新为容器/容器组被分配获得的RDMA网络IP,实现了在容器云上运行分布式训练任务时训练数据的RDMA通信,解决了“大模型”和“大数据”场景下容器云上部署分布式训练时训练数据通信瓶颈问题,大大提高了在容器云平台上执行分布式训练的效率。
技术领域
本发明涉及容器云、分布式机器学习领域;具体地,涉及一种根据IP分配表更新分布式训练任务连接参数的方法。
背景技术
随着大数据和机器学习研究的不断深入,大数据时代的机器学习开始呈现出“大模型”和“大数据”的特点。其中的“大模型”,是指随着机器学习(特别是深度学习)的进展,许多问题越来越需要一个更大的模型才能有能力去尽量接近要解决问题的具体功能;“大数据”则是指训练数据集较小时,机器学习(特别是深度学习)的效果并不理想,因此通常需要尽量大的数据作为训练集,以提高机器学习的效果。这样就使得在大规模机器学习训练场景下,训练数据和模型参数大到单台机器无法处理。因此,分布式机器学习也随之出现。
分布式机器学习是指将训练任务拆解成若干个小的任务,分配到多个设备上进行训练。分布式机器学习不仅是将训练任务分布到多个处理器上,同时也将数据(包括训练数据以及中间结果)分布在不同设备的存储中。为了获得更大的计算能力、存储、吞吐量以及容错能力,人们越来越倾向于分布式机器学习训练。
然而,一个具备实用意义的用于分布式机器学习训练的裸机集群(即物理主机集群),其从构建部署到运行维护,都是极为专业且复杂甚至是繁琐的工作。为此,人们将容器云技术应用到分布式机器学习领域,简化其构建部署运维工作的难度。
容器云技术不仅能够实现容器集群的快速部署,同时它也是一种轻量化的解决方案,且能够有效整合和管理着裸机资源。这里以Kubernetes平台运行分布式机器学习训练任务为例,Kubernetes不仅为打包应用提供一致的方法,保证应用在不同设备上运行的一致性,为应用的运行环境提供资源隔离,同时其对硬件底层的复杂性和节点管理进行了抽象,并且支持GPU的调度,此外,其还可基于应用和集群本身的需要进行弹性扩展。
容器、容器编排工具的容器云平台,均是运行在操作系统上,故其默认的通信通常也是由容器云平台提供的连接访问服务实现的,虽然这是一种高可用的容器云网络解决方案,但其无法绕过操作系统。由于上述方案的通信过程需要操作系统和协议栈的介入,在“大数据”训练集的场景下,训练梯度网络传输过程中将不可避免占用大量的CPU资源,还会造成较大网络延时,严重制约训练效率。
RDMA,即远程直接数据存取技术;RDMA可以通过网络在两个节点的应用软件之间实现Buffer的直接传递。相比传统的网络传输,RDMA无需操作系统和协议栈的介入,避免了网络传输过程中大量的CPU资源占用,同时也减小了网络延时。在物理主机作为节点组成的集群进行分布式计算时,已经通过为每个物理节点挂载RDMA网卡(即支持RDMA协议的物理网卡)的方式实现了RDMA通信。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳致星科技有限公司,未经深圳致星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910415272.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:服务系统及数据处理方法
- 下一篇:一种获取实体域名的方法和装置