[发明专利]广域网跨数据中心分布式学习模型参数更新方法及装置在审
申请号: | 202210061516.1 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114492838A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 邓宸;李文超;徐安然;尹山;匡立伟 | 申请(专利权)人: | 烽火通信科技股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;H04L67/10 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 曲卫涛 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 广域网 数据中心 分布式 学习 模型 参数 更新 方法 装置 | ||
1.一种广域网跨数据中心分布式学习模型参数更新方法,其特征在于,包括:
将模型及训练数据都拆分部署在N台worker machine上;
在每台参数服务器上设置相同的参数重要性评估器,所述参数重要性评估器包括三个参数:模型收敛固定参数Tf、网络带宽门限值Tb以及参数重要性动态门限值Td;
开始进行分布式机器学习模型训练。
2.根据权利要求1所述的广域网跨数据中心分布式学习模型参数更新方法,其特征在于,通过设定Tf保证模型训练收敛,具体的:设置最小Tf值,当worker machine更新参数Δx大于Tf时,允许参数服务器更新参数。
3.根据权利要求2所述的广域网跨数据中心分布式学习模型参数更新方法,其特征在于,所述Tf根据模型大小及训练数据分布手动设置,当模型偏大或训练数据方差偏小时将Tf设置偏小,当模型偏小或训练数据方差偏大时将Tf设置偏大。
4.根据权利要求1所述的广域网跨数据中心分布式学习模型参数更新方法,其特征在于,通过设定Tb保证广域网间最小通信损耗,具体的:设置最大Tb值,当worker machine与参数服务器间数据传输速率大于Tb时,暂停该参数服务器与其他参数服务器在广域网间的通信。
5.根据权利要求4所述的广域网跨数据中心分布式学习模型参数更新方法,其特征在于,所述Tb根据环境中广域网间的通讯能力手动设置,当广域网间的带宽较小时设置较小Tb,当广域网间的带宽较大时设置较大Tb。
6.根据权利要求1所述的广域网跨数据中心分布式学习模型参数更新方法,其特征在于,通过设定Td过滤不重要参数,具体的:设置动态Td值,当worker machine更新参数Δx大于Td时,允许参数服务器更新参数。
7.根据权利要求6所述的广域网跨数据中心分布式学习模型参数更新方法,其特征在于,所述Td的具体设置方式包括:
手动设置单位时间t,将模型训练总时间T按单位时间t平均分为n等份,即训练总时间T={t1,t2,t3,…,tn};
t1时刻,参数服务器收集数据中心内所有worker machine的更新参数X1(i)={x11,x12,x13,…,x1i,…,x1n},求X1的一阶矩二阶矩其中P(x)为X1中x1i的概率密度函数,此时设置α为限制系数,α∈(0,1),并令一阶矩平均预测值二阶矩平均预测值
从t2时刻起,在第m轮单位时间窗结束时,参数服务器收集数据中心内所有workermachine的更新参数Xm(i)={xm1,xm2,xm3,…,xmi,…,xmn},求此时Xm的一阶矩和二阶矩更新其中,β1和β2为加权系数,β1,β2∈(0,1),然后对及进行修正,得最后更新其中,γ为从训练模型获得的训练模型的学习率,γ∈(10-6,1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烽火通信科技股份有限公司,未经烽火通信科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210061516.1/1.html,转载请声明来源钻瓜专利网。