[发明专利]广域网跨数据中心分布式学习模型参数更新方法及装置在审
申请号: | 202210061516.1 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114492838A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 邓宸;李文超;徐安然;尹山;匡立伟 | 申请(专利权)人: | 烽火通信科技股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;H04L67/10 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 曲卫涛 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 广域网 数据中心 分布式 学习 模型 参数 更新 方法 装置 | ||
本发明涉及一种广域网跨数据中心分布式学习模型参数更新方法及装置。其方法部分主要包括:将模型及训练数据都拆分部署在N台worker machine上;在每台参数服务器上设置相同的参数重要性评估器,所述参数重要性评估器包括三个参数:模型收敛固定参数Tf、网络带宽门限值Tb以及参数重要性动态门限值Td;开始进行分布式机器学习模型训练。本发明通过引入参数重要性机制解决分布式机器学习训练速率的问题;通过引入参数重要性机制解决分布式机器学习对网络带宽需求过高的问题;通过使用参数重要性机制剔除不重要参数的更新,可以降低WAN间分布式机器学习对带宽的需求,可减少参数服务器的计算量。
【技术领域】
本发明涉及分布式机器学习技术领域,特别是涉及一种广域网跨数据中心分布式学习模型参数更新方法及装置,主要解决跨域(WAN)\跨数据中心(DC)分布式机器学习对于域间通信网络带宽和时延要求过高的问题。
【背景技术】
现如今机器学习应用广泛,尤其是深度学习的使用,在模式识别方向如图像语音等方向均有重要突破。随着算法的不断迭代更新,应用场景的挖掘逐渐凸显其重要性,将机器学习应用工程化也成为了主要研究方向。其中,分布式机器学习作为最主要的研究分支之一,为大数据背景下的机器学习模型训练提供了合适的解决方案。分布式机器学习主要针对的应用场景如下:
(1)当原始数据来源分布在多个不同终端时,若是使用传统模型训练方案将所有原始数据集中到统一数据中心进行处理,在数据传输过程中将会大量占用网络带宽资源,该方案耗时、耗费公共资源且不必要,此时适合使用分布式机器学习进行模型训练。
(2)当原始数据源所有者对数据安全有要求时,此时在广域网中传输原始数据不再可行,此时使用分布式机器学习为最佳方案,该场景也是联邦学习的基础。
分布式机器学习的瓶颈:
分布式机器学习的最大瓶颈即为多台服务器之间的传输带宽,由于分布式机器学习对服务器之间通信的实时性要求极高(us级),且模型训练时的数据更新量巨大(Tb/s级),造成分布式机器学习对网络带宽要求一般在100Mb/s至10Gb/s。
广域网(WAN)分布式机器学习瓶颈:
广域网分布式机器学习与传统分布式机器学习相同,同样存在带宽限制问题,同时还存在网络时延限制。广域网中网络时延主要由物理时延构成,与传输距离成正相关。相较于局域网分布式机器学习,在广域网中带宽资源更加紧张,局域网中的带宽平均为广域网中带宽的10X-100X,且广域网带宽与地理位置密切相关,目前国内开通1Gb/s-10Gb/s带宽的省内专线业务一般服务价格为50000-200000元/月,而跨省开通专线的费用通常为省内专线费用的5X-10X,高昂的网络运营费用往往限制了广域网分布式机器学习的发展。
如图1所示,为现有技术中,局域网参数服务器扩展到广域网的示意图,参数服务器(parameter server,PS)是目前主流的高性能分布式机器学习架构之一,其主要思想是将模型训练数据和模型本身拆散分布在多台worker machine和PS上,通过多台服务器提供高额算力,加速单一模型训练过程,如图1所示,将PS模型扩展到跨数据中心场景(也即广域网WAN)后,由于worker machine每轮参数更新均需要在所有PS中保持实时更新,因此WAN间通信带宽和时延成为了限制该架构性能的主要因素。
综上所述,在广域网中部署分布式机器学习时,受限于网络带宽,机器学习算法通常会有20X-50X性能衰退。
鉴于此,如何克服现有技术所存在的缺陷,解决上述技术问题,是本技术领域待解决的难题。
【发明内容】
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烽火通信科技股份有限公司,未经烽火通信科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210061516.1/2.html,转载请声明来源钻瓜专利网。