[发明专利]一种基于工作量自动调优的负载均衡方法有效

申请号：	201911197352.X	申请日：	2019-11-29
公开（公告）号：	CN110888744B	公开（公告）日：	2022-06-14
发明（设计）人：	张纪林;薛瑞亨;万健;李明伟;沈静;张俊聪	申请（专利权）人：	杭州电子科技大学;浙江曙光信息技术有限公司
主分类号：	G06F9/50	分类号：	G06F9/50;G06N20/00
代理公司：	杭州奥创知识产权代理有限公司 33272	代理人：	王佳健
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于工作量自动负载均衡方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于工作量自动调优的负载均衡方法。本发明通过自动化调优的方式为集群中每个计算节点找出最优工作量大小，并将全部计算节点的工作量汇总为一个最优工作量比例数组，然后将该数组运用到分布式机器学习模型训练中以达到平衡集群负载的效果。本发明通过自动化调优的方式为集群中每个计算节点找出最优工作量大小，从而有效地平衡了各节点之间的性能差异，有效缓解了滞后问题，提高了分布式机器学习模型训练的整体性能。

技术领域

本发明属于分布式机器学习加速技术领域，具体是一种基于工作量自动调优的负载均衡方法。

背景技术

随着时代的进步以及计算机、通信技术的高速发展，大规模机器学习系统已成为诸多商业应用的重要组成部分。大数据为我们带来机遇的同时，也带来了数据处理问题上的挑战。随着互联网数据量指数性的增长，机器学习模型训练的数据量动辄数百TB甚至数PB，与此同时数据量的急速增长也伴随着对更加复杂模型的急剧需求，如此大规模的机器学习模型训练已经远远超出单台计算机的存储和计算能力。为了减少应用程序的运行时间，越来越多的机器学习算法转向并行分布式实现，使得分布式机器学习系统逐渐成为研究的热门。

迭代-收敛算法是机器学习算法中的一个重要子集。这类算法从随机生成初始解决方案开始，通过对输入的数据进行反复迭代训练，从而获得最终的解决方案。迭代-收敛算法通常选择对输入数据进行分片，然后采用批量同步并行(Bulk SynchronousParallel，BSP)模型进行分布式模型训练，其中分布式系统主要由若干个参数服务器以及若干个计算节点组成。基于参数服务器系统的数据并行化就是如上所述的一种并行化方案，其训练流程为：

1)初始化阶段：随机初始化全局模型参数集合，并由参数服务器维护后续更新。

2)模型参数分发阶段：将当前全局模型参数集合分发给计算节点，每个计算节点维护一个局部模型参数集合副本。

3)训练集分发阶段：将训练集样本切分为数据规模相同的子训练集并分发到计算节点。

4)迭代训练阶段：各计算节点通过训练对应的子训练集以对模型参数集合副本进行局部更新。

5)同步更新阶段：在全部计算节点完成局部模型参数集合的上传后，参数服务器将更新后的全局模型参数集合分发给所有计算节点。

6)若迭代总次数未达到预先设置的最大值，则跳至步骤4)；否则，结束训练。

BSP模型存在的主要问题是滞后问题。滞后问题是指由于集群节点性能差异造成性能差的计算节点拖慢整体运行速度的现象。在真实生产环境下，计算节点的规模以及计算节点完成一次迭代训练的耗时均存在动态变化性，使滞后问题趋于严重，造成BSP模型的训练性能大幅下降。

为了解决BSP模型中存在的问题，Dean提出了分布式机器学习异步并行执行(Asynchronous Parallel Execution，ASP)模型，ASP模型的优点在于计算节点可以在接收全局模型参数之前使用局部模型参数执行下一次迭代，不会因集群负载不均衡而产生滞后问题，极大地减少了模型训练的时间成本。但是ASP模型过度利用迭代算法的容错性，可能导致机器学习算法陷入局部最优解。Qirong Ho提出了延迟同步并行(Stale SynchronousParallel，SSP)模型，与ASP模型类似，SSP模型允许各计算节点在迭代训练时使用局部模型参数，并且严格控制节点使用局部模型参数进行迭代训练的次数。在确保模型收敛的前提下，极大地减少了计算节点的滞后时间。然而SSP模型平衡集群负载的能力是固定不变的，它无法良好地适应真实生产环境下集群节点性能的动态变化，导致其无法保证模型准确率。因此如何提高分布式机器学习模型训练的性能是一个迫切需要解决的问题。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学;浙江曙光信息技术有限公司，未经杭州电子科技大学;浙江曙光信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911197352.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种除油剂SP-1068的应用
下一篇：一种电子表单下拉框选项呈现排序方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于工作量自动调优的负载均衡方法有效

专利文献下载