[发明专利]机器学习模型的分布式训练方法及装置、电子设备、介质有效

申请号：	202110704799.2	申请日：	2021-06-24
公开（公告）号：	CN113487036B	公开（公告）日：	2022-06-17
发明（设计）人：	高云君;杨克宇;陈璐;曾志豪	申请（专利权）人：	浙江大学
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	应孔月
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	机器学习模型分布式训练方法装置电子设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种机器学习模型的分布式训练方法及装置、电子设备、介质，该方法采用梯度键值对表示所述梯度向量中的非零元素；保留绝对值大于设定阈值的所述梯度值；通过倒数映射的方式，将保留的梯度值转化为梯度倒数值；将所述梯度倒数值进行对数量化，得到梯度量化整数，作为压缩的梯度值；根据保留的梯度值对应的梯度键求相邻梯度键的增量，获得增量梯度键；根据所述增量梯度键，得到长度标志位；对所述增量梯度键根据对应长度标志位进行二进制编码，组合长度标志位和二进制编码得到压缩的梯度键；再将所述压缩的梯度值和梯度键用于节点间传输，降低了各节点传输的梯度数据通信量，进而达到了提升机器学习模型分布式训练效率的技术效果。

技术领域

本发明涉及机器学习技术领域，尤其涉及一种机器学习模型的分布式训练方法及装置、电子设备、介质。

背景技术

机器学习在现代社会的各个领域有着广阔的应用场景，包括但不限于计算机视觉、自然语言处理、语音识别等。随着以互联网技术和社会的发展，机器学习能使用的数据正以前所未有的速度不断增长和累积，此时单独一台机器往往无法有效地训练模型。因此，分布式机器学习训练成为了行业热点。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：

分布式机器学习模型训练通常采用分布式梯度下降，即在分布式环境中使用随机梯度下降法(支持大量机器学习模型进行训练的核心优化方法，需要进行多轮迭代)训练机器学习模型。此时，训练数据集被划分到多台机器(即分布式工作节点)上，每个分布式工作节点都拥有相应的训练数据划分以及完整模型参数的本地副本，每台机器使用本地数据集独立计算本地梯度，并通过网络通信进行梯度交互以及聚合更新。由于随机梯度下降法是一个迭代的过程，整个训练过程会处理很多轮，各个机器之间均需要传输大量的梯度数据，这会产生高额的梯度通信量，带来计算资源利用效率低下、训练时间冗长等问题。

发明内容

本发明实施例的目的是提供一种机器学习模型的分布式训练方法及装置、电子设备、介质，以解决现有机器学习模型对计算资源利用效率低下、训练时间冗长的问题。

根据本申请实施例的第一方面，提供一种机器学习模型的分布式训练方法，应用于子节点，该方法包括：

获取机器学习模型分布式训练过程中产生的梯度向量；

采用梯度键值对表示所述梯度向量中的非零元素，所述梯度键值对包括梯度键和梯度值；

保留绝对值大于设定阈值的所述梯度值；

通过倒数映射的方式，将保留的梯度值转化为梯度倒数值；

将所述梯度倒数值进行对数量化，得到梯度量化整数，作为压缩的梯度值；

根据保留的梯度值对应的梯度键求相邻梯度键的增量，获得增量梯度键；

根据所述增量梯度键，得到长度标志位；

对所述增量梯度键根据对应长度标志位进行二进制编码，组合长度标志位和二进制编码得到压缩的梯度键；

将所述压缩的梯度值和梯度键发送给主节点，以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压，并将解压后的梯度值和梯度键进行聚合，得到更新后的梯度向量；