[发明专利]一种分布式机器学习系统及适用于其的通信调度方法有效
申请号: | 202010411839.X | 申请日: | 2020-05-15 |
公开(公告)号: | CN111612155B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 陈果;陈博伟;蔡均瑶 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;H04L67/10;H04L67/60 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 机器 学习 系统 适用于 通信 调度 方法 | ||
本发明公开了一种分布式机器学习系统及适用于其的通信调度方法,其方法为:在分布式机器学习系统的参数服务器或交换机的网络芯片上增设自动机,通过自动机识别分布式机器学习系统中的参数服务器和工作节点;参数服务器依次向每个工作节点发送对应分配的参数,在同一时间点只向一个工作节点发送对应分配的参数;每个工作节点从参数服务器拉取到参数后,均立即开始根据参数计算梯度;每个工作节点在完成梯度计算后,判断此时的参数服务器是否在接收其他工作节点推送的梯度,若否,则将当前工作节点计算得到的梯度推送给参数服务器。本发明对分布式机器学习系统的通信进行合理调度,有效降低分布式机器学习的通信时间成本。
技术领域
本发明属于分布式计算和机器学习交叉技术领域,具体为一种分布式机器学习系统及适用于其的通信调度方法。
背景技术
随着大数据时代的到来,机器学习算法尤其是适用于大规模数据的深度学习算法正得到越来越广泛的关注和应用,包括语音识别、图像识别以及自然语言处理等。然而,随着输入训练数据(机器学习中用于求解神经网络模型的一类数据)和神经网络模型的增大,单节点进行机器学习训练存在内存限制以及数周甚至数月的训练耗时等问题,分布式机器学习应运而生。分布式机器学习在工业界和学术界都收到普遍的关注,如:Google利用DistBelief分布式系统训练出了猫脸识别模型,UC Berkeley AMP实验室开源了一个可适用于机器学习算法的类Hadoop MapReduce的分布式计算系统Spark。
典型的分布式机器学习系统为数据并行的参数服务器系统(本文中所述参数指的是机器学习中用于建立神经网络模型的矩阵变量),其中该系统包括一个或多个主节点作为参数服务器节点,多个从节点作为工作节点。参数服务器节点负责维护和更新全局共享参数;工作节点保存一部分输入训练数据,利用该训练数据计算新的模型参数,并且及时将新的模型参数同步给参数服务器。
现有技术中,分布式机器学习系统完成一个次迭代训练包括4个子步骤:
1、工作节点从参数服务器节点拉取最新参数副本;
2、工作节点从本地训练数据中取出一批(batch,表示一个完整实体的用于训练的输入数据矩阵称为一组,一批可能是一组或者多组)新的数据,首先经过前向传播(ForwardPropagation)得到损失函数的值(本文所述损失函数的值由损失函数产生,用于描述模型的预测值与真实值的不一致程度),再经过反向传播(Backword Propagation),得到新的参数梯度(本文所述参数梯度指的是用于更新参数矩阵的差值);
3、工作节点将新计算的参数梯度推送给参数服务器;
4、参数服务器利用参数梯度计算更新参数。
但在对现有技术的分布式机器学习系统的建模分析过程中,通过自动化脚本多次运行tensorflow官方给出的CNN benchmark(包括inception3/alexnet/VGG19/resnet50)等模型,并以数据包为最小单位分析在一次完整的tensorflow训练过程中参数服务器和工作节点之间的通信过程,发现参数服务器和工作节点之间唯一的网络连接会被多个工作节点同时占用,导致每个工作节点通信完成时间都相互受到了影响。参数服务器同时向多个工作节点推送参数副本,工作节点需要获得完整的参数副本,再进行计算。并在工作节点计算完成后,将参数梯度推送给参数服务器。在上述过程中,通信与计算互不重叠,造成计算与通信的资源浪费。
而且随着训练数据量的增大,节点的增多可使计算时间线性下降,因此在分布式机器学习系统中设置更多工作节点训练模型成了必然的趋势,但与此同时,工作节点的增多使通信时间呈非线性快速增长,导致通信时间会成为分布式机器学习的瓶颈。
因此,有必要提出一种可有效降低分布式机器学习的通信时间成本的通信调度方法。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010411839.X/2.html,转载请声明来源钻瓜专利网。