[发明专利]一种基于版本控制的分布式机器学习模型更新方法在审
申请号: | 202011555400.0 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112488324A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 郑嘉琦;韩宏健;陈贵海 | 申请(专利权)人: | 南京大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/04;G06N3/08 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 陈月菊 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 版本 控制 分布式 机器 学习 模型 更新 方法 | ||
本发明公开了一种基于版本控制的分布式机器学习模型更新方法,包括:工作节点基于本地参数以及其版本进行梯度计算和版本传递,随后发送包含版本信息的push请求向服务器节点通信;参数服务器将根据push请求的版本信息判断所属工作节点的通信合法性,并进行相应的操作;参数服务器收集梯度,并根据强化学习方法所得到的控制信息控制全局参数更新和通信;参数服务器发送当前最新全局参数以及版本信息,接收到的工作节点进行本地参数以及版本的更新。本发明能够采用版本控制动态评估当前分布式系统的硬件效率和统计效率,并且采用在线强化学习方法动态追踪两者的最佳权衡以实现最优整体性能。
技术领域
本发明涉及分布式机器学习技术领域,具体而言涉及一种基于版本控制的分布式机器学习模型更新方法。
背景技术
机器学习技术在多种任务场景中取得了广泛的成功,但随着数据的膨胀和任务复杂性的增加,将海量数据并行分配到多个计算节点的分布式机器学习成为了高效且可行的解决方案。近年来,随着硬件设备和物联网技术的不断发展,越来越多的边缘设备可以参与分布式机器学习的计算,虽然更多设备的参与提高了系统整体的吞吐量和算力,但同时也增加了系统异构性从而对不同设备间的调度提出了挑战。
分布式机器学习具有两个性能指标,一方面,机器学习场景希望维护一定的模型更新一致性既统计效率(STE)从而降低收敛所需的迭代轮数;另一方面,分布式系统希望维护一定的系统吞吐量既硬件效率(HWE)从而降低每轮迭代计算所消耗的时间。可以看出系统的整体性能指标---收敛所消耗的时间收到这两个指标影响。
在分布式的场景下,传统的调度方法如完全同步(BSP)通过严格同步限制维护了良好的统计效率却限制了硬件效率;而完全异步(ASP)通过放松限制维护了最好的硬件效率却限制了统计效率。不同于传统计算,机器学习的支撑算法如随机梯度下降法(SGD)等往往具有一定的鲁棒性,不要求所采用的机器学习模型具有严格一致性。基于此,随后的改进调度算法如有限异步(SSP)和软同步(SP)均在寻找硬件效率和统计效率的权衡。然而,有限异步所依赖的设备性能近似假设以及软同步的静态同步参数设置使得它们难以应对复杂的甚至是动态的高系统异构性场景。
发明内容
本发明针对现有技术中的不足,提供一种基于版本控制的分布式机器学习模型更新方法,采用版本控制动态评估当前分布式系统的硬件效率和统计效率,并且采用在线强化学习方法动态追踪两者的最佳权衡以实现最优整体性能。
为实现上述目的,本发明采用以下技术方案:
一种基于版本控制的分布式机器学习模型更新方法,所述更新方法包括以下步骤:
S10,本地计算:工作节点基于本地参数以及其版本进行梯度计算和版本传递,随后发送包含版本信息的push请求向服务器节点通信;
S20,梯度通信:参数服务器将根据push请求的版本信息判断所属工作节点的通信合法性,并进行相应的操作;
S30,全局更新:参数服务器收集梯度,并根据强化学习方法所得到的控制信息控制全局参数更新和通信;
S40,参数通信:参数服务器根据步骤S20和步骤S30的控制结果发送当前最新全局参数以及版本信息,接收到的工作节点进行本地参数以及版本的更新;
重复以上过程直到满足停止条件:分布式系统的收敛所消耗的时间小于预设时间阈值。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S10中,所述本地计算的过程包括如下步骤:
S11,工作节点将根据本地参数w和版本V(w)计算梯度以及梯度的版本:假设该工作节点m所使用的批大小为n,将参数的版本传递给工作节点V(m)←V(w),随后根据本地数据(xi,yi)和参数w计算出数据相关梯度并进行本地梯度更新:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011555400.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地下空间建构筑物控水系统及其施工方法
- 下一篇:断路器