[发明专利]一种基于梯度下降法的数据处理方法及相关装置有效
申请号: | 201910016161.2 | 申请日: | 2019-01-08 |
公开(公告)号: | CN109740755B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 范博文 | 申请(专利权)人: | 深圳市网心科技有限公司 |
主分类号: | G06N3/084 | 分类号: | G06N3/084;H04L69/04 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 梯度 下降 数据处理 方法 相关 装置 | ||
本申请实施例第一方面公开了一种基于梯度下降法的数据处理方法,应用于共享节点,具体包括:计算获得当前节点的原始梯度,对当前节点的原始梯度进行压缩,获得压缩梯度,将所述压缩梯度发送至参数服务器,以使所述参数服务器根据各共享节点发送的压缩梯度计算梯度均值,接收参数服务器发送的梯度均值以更新模型参数。本申请第二方面提供了一种数据处理的装置。本申请第三方面提供了一种数据处理的系统。本申请第四方面以及第五方面分别提供了一种计算机可读存储介质以及一种计算机程序产品,用于执行上述一种数据处理的方法。本申请用于降低所需传输的数据量,从而降低了传输所需的带宽,为在共享计算节点上部署深度学习提供支持。
技术领域
本发明涉及深度学习与共享计算领域,尤其涉及一种基于梯度下降法的数据处理方法及相关装置。
背景技术
当前,以深度学习为代表的新一代人工智能技术正在广泛地影响着人们的生活和工作,通过赋能新物流、新制造等经济活动形式,对经济结构优化和产业升级有重大拉动作用。对于广大的企业经营者而言,如何利用人工智能来提高企业决策、资源分配效率和用户体验,成为了必须要考虑的问题。作为当前人工智能技术浪潮的代表,深度学习本质上就是通过对数据进行挖掘和归纳,从而找到其中蕴藏的规律,目前已经在视频、语音、自然语言理解等方向有着广泛应用。为了保证所归纳的规律能够尽可能符合应用场景的特点,因此需要收集大量的待训练数据并构造参数容量足够大的数学模型,以上要求导致了深度学习技术应用是存储密集和计算密集,而且由于数学模型的构造需要用到一种基于梯度下降反向传播的优化算法,使得模型的构造过程是通信密集。
整个流程中模型参数的梯度总共需要传输2次,即为统计数据的节点传输至服务器的过程以及服务器返回节点的过程,由于梯度的数据规模往往正比于模型参数量,因此整个系统的通信开销非常庞大,设每个节点需要传输的梯度为G,通信带宽为B,共有N个节点,则单个节点的传输时间T=2*G/B,参数服务器传输时间T=2*N*G/B,由于数据的庞大,造成了通信时间较长的问题。
现有技术中由于通信时间较长,想要降低通信时间都通过加大带宽的方式,因此可用于提供深度学习服务的机器只能放在数据中心,机器间采用大带宽连接,而建造数据中心的成本非常高,也就使得目前市场上深度学习云服务的单价很高,所以使计算数据的过程在共享领域内完成是一个亟待解决的问题。
申请内容
本申请实施例提供了一种基于梯度下降法的数据处理方法及相关装置,用于降低所需传输的数据量,从而降低了传输所需的带宽,为在共享计算节点上部署深度学习提供支持。
本申请第一方面提供一种梯度压缩的方法,包括:
计算获得当前节点的原始梯度;
对当前节点的原始梯度进行压缩,获得压缩梯度;
将所述压缩梯度发送至参数服务器,以使所述参数服务器根据各共享节点发送的压缩梯度计算梯度均值;
接收参数服务器发送的梯度均值以更新模型参数。
可选地,所述对当前节点的原始梯度进行压缩,包括对原始梯度进行梯度裁剪,所述梯度裁剪包括:
根据梯度压缩需求设置裁剪参数,所述裁剪参数为比例参数。
可选地,对所述原始梯度进行裁剪包括:
对所有需计算的梯度裁剪元素取绝对值;
对所述取得的绝对值进行从大到小排列;
根据所述裁剪参数的值,取得比例内的最小的梯度裁剪元素的绝对值作为裁剪阈值;
筛选出绝对值大于所述裁剪阈值的梯度裁剪元素,所述梯度裁剪元素用于进行梯度压缩元素的筛选。
可选地,所述对当前节点的原始梯度进行压缩,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市网心科技有限公司,未经深圳市网心科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910016161.2/2.html,转载请声明来源钻瓜专利网。