[发明专利]神经网络模型的训练方法及装置在审

申请号：	201910208661.6	申请日：	2019-03-19
公开（公告）号：	CN111723901A	公开（公告）日：	2020-09-29
发明（设计）人：	王桂彬;白锦峰	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	神经网络模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种神经网络模型的训练方法，其特征在于，包括：

获取神经网络初始模型；

对所述神经网络初始模型的网络参数进行参数量化以生成参数量化神经网络模型；以及

对所述参数量化神经网络模型进行激活量化。

2.如权利要求1所述的神经网络模型的训练方法，其特征在于，所述参数量化神经网络模型包括多个网络层，所述对所述参数量化神经网络模型进行激活量化，包括：

获取激活函数，通过所述激活函数对所述参数量化神经网络模型的多个网络层的计算结果进行激活以生成激活结果；

在所述激活结果向下一个网络层传输之前，对所述激活结果进行激活量化，直至完成反向计算并获取反向传递梯度；以及

根据所述反向传递梯度对所述参数量化神经网络模型进行更新。

3.如权利要求1或2所述的神经网络模型的训练方法，其特征在于，所述参数量化和激活量化的量化模型均为其中，W为网络参数或激活结果，α_i为大于零的浮点数，β_i为具有与W相同大小的矩阵，β_i的取值为-1或1，n为用于表征W的二进制数字的比特数量。

4.如权利要求3所述的神经网络模型的训练方法，其特征在于，所述对所述激活结果进行激活量化，包括：

根据所述量化模型将所述激活结果转换为第一量化表示；

根据所述第一量化表示计算所述激活结果对应的α_i和β_i；以及

根据计算的α_i和β_i计算所述激活结果对应的反量化结果，并将所述反量化结果传输至下一个网络层。

5.如权利要求4所述的神经网络模型的训练方法，其特征在于，所述激活结果的取值范围为[-0.5,+0.5]。

6.如权利要求3所述的神经网络模型的训练方法，其特征在于，所述对所述神经网络初始模型的网络参数进行参数量化以生成参数量化神经网络模型，包括：

根据所述量化模型将所述网络参数转换为第二量化表示；

根据所述第二表示计算所述网络参数对应的α_i和β_i；

根据计算的α_i和β_i计算所述网络参数对应的反量化网络参数；以及

根据所述反量化网络参数对所述神经网络初始模型进行更新以生成参数量化神经网络模型。

7.如权利要求3所述的神经网络模型的训练方法，其特征在于，所述获取神经网络初始模型，包括：

通过单精度训练算法形成所述神经网络初始模型。

8.一种神经网络模型的训练装置，其特征在于，包括：

获取模块，用于获取神经网络初始模型；

第一处理模块，用于对所述神经网络初始模型的网络参数进行参数量化以生成参数量化神经网络模型；以及

第二处理模块，用于对所述参数量化神经网络模型进行激活量化。

9.如权利要求8所述的神经网络模型的训练装置，其特征在于，所述参数量化神经网络模型包括多个网络层，所述第二处理模块包括第一单元、第二单元、第三单元：

所述第一单元，用于获取激活函数，通过所述激活函数对所述参数量化神经网络模型的多个网络层的计算结果进行激活以生成激活结果；

所述第二单元，用于在所述激活结果向下一个网络层传输之前，对所述激活结果进行激活量化，直至完成反向计算并获取反向传递梯度；以及

所述第三单元，用于根据所述反向传递梯度对所述参数量化神经网络模型进行更新。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度在线网络技术（北京）有限公司，未经百度在线网络技术（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910208661.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载