[发明专利]一种具有动态学习速率边界的分布式自适应矩估计方法在审

申请号：	201910941984.6	申请日：	2019-09-30
公开（公告）号：	CN110659745A	公开（公告）日：	2020-01-07
发明（设计）人：	申修宇;李德权;方润月	申请（专利权）人：	安徽理工大学
主分类号：	G06N20/10	分类号：	G06N20/10
代理公司：	暂无信息	代理人：	暂无信息
地址：	232001 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自适应在线优化并行化学习动态学习分散网络机器学习实验验证通信成本外围节点中心节点矩估计渐进收敛应用通信优化开发
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

基于自适应梯度的优化方法如ADAGRAD、RMSPROP、ADAM等被广泛应用于解决包括深度学习在内的大规模机器学习问题。在现有的工作中，已经针对外围节点与中心节点的通信并行化问题提出了许多解决方案，但通信成本往往较高。并且现有的方法普遍存在泛化能力较差，甚至由于不稳定和极端的学习率而无法收敛。为了解决目前存在的问题，开发了一种新的具有动态学习速率边界的分布式自适应矩估计方法(DADBOUND)，用于在分散网络上进行在线优化，从而实现数据并行化和分散计算。并且该方法利用学习率的动态范围来实现从自适应方法到DSGD的渐进平稳过渡，以消除自适应方法和DSGD之间的泛化差距，同时在训练初期保持较高的学习速度。最后，对各种任务进行了实验验证，结果表明DADBOUND方法在实际应用中效果良好，与其他在线优化方法相比具有一定的优势。

技术领域

本发明涉及一种具有动态学习速率边界的分布式自适应矩估计方法，属于机器学习领域。

背景技术

在线优化是解决各种机器学习问题的基本过程。它可以表示为学习者(算法)和对手之间的重复博弈。分散式在线凸优化在科学和工程领域得到了广泛的关注。例如分布式跟踪，估计和检测等经典问题本质上也是优化问题。分布式优化问题主要是执行分配给网络中每个节点的全局优化任务。相比集中式优化，分布式优化对节点施加较低的计算负担，并且即使节点经历本地故障，网络系统仍然保持稳健，因此它可以有效地克服集中式场景中单个信息处理单元中的缺陷。

目前，在分散优化中，梯度下降算法是一种常用算法，SGD是常用的梯度下降算法，然而，SGD的缺点是在各个方向上梯度均匀。在训练数据稀疏的情况下，这可能会导致较差的性能和有限的训练速度。为了解决这一问题，最近的工作提出了各种自适应方法，将梯度按过去梯度的平方值的平均值的某种形式的平方根来缩放梯度。尽管这些自适应方法很受欢迎，但它们的泛化能力和样本外行为可能比非自适应方法差。同样在对自适应方法ADAM的研究中发现在训练结束时存在着极高和极低的学习率，致使自适应方法缺乏泛化性能可能是由于学习速度不稳定和极端。

总结目前存在的问题是①现有的分布式随机和自适应梯度深度学习方法大多是针对中心网络拓扑结构设计的。这种拓扑结构的主要瓶颈在于中心节点上的通信过载，因为所有节点都需要与它并发通信。因此，当网络带宽有限时，性能会显著降低。②现有的自适应方法中，存在训练结束时学习率不稳定即过大过小问题，导致最终方法的泛化性能差，解决实际问题效果不理想。

发明内容

本发明所要解决的技术问题是：提供一种具有动态学习速率边界的分布式自适应矩估计方法，旨在解决集中式场景中的中心节点通信过载以及训练时的极端学习率问题。

为解决以上技术问题，本发明采用如下的技术方案：

考虑研究网络拓扑的自适应方法，其中所有节点只能与其邻居通信，没有一个节点被指定为“中心”。并且受梯度裁剪的启发，在分布式ADAM中使用了学习速率的裁剪，用于裁剪大于阈值的学习率，以避免极端学习率的发生。该方法既能并行化数据，又能分散计算，适用于大规模机器学习问题。

附图说明

图1是本发明的方法在L1正则化逻辑回归模型的收敛图。

图2是本发明的方法在线性支持向量机模型的收敛图。

图3是本发明的方法在softmax分类回归模型的收敛图。

具体实施方式

本发明解决在连通无向网络上的分布式优化问题，避免集中式场景中单个信息处理单元中的缺陷，造成中心节点通信成本过高，以及自适应方法存在训练结束时的极端学习率问题。

具体步骤为：

Step1：揭示损失函数f_t(t)＝f_i,t(t)