[发明专利]神经网络模型的训练方法及装置在审

申请号：	201910208661.6	申请日：	2019-03-19
公开（公告）号：	CN111723901A	公开（公告）日：	2020-09-29
发明（设计）人：	王桂彬;白锦峰	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	神经网络模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种神经网络模型的训练方法及装置，其中，该方法包括：获取神经网络初始模型；对所述神经网络初始模型的网络参数进行参数量化以生成参数量化神经网络模型；以及对所述参数量化神经网络模型进行激活量化。由于在训练神经网络模型的过程中，对网络参数和激活结果进行了量化，使应用比特乘法成为可能，实现了在保证神经网络模型的识别精度的前提下，极大地压缩了神经网络模型的深度和体积，极大地降低了神经网络模型在推理时的计算复杂度，加快了神经网络模型的推理速度。

技术领域

本发明涉及神经网络技术领域，尤其涉及一种神经网络模型的训练方法及装置。

背景技术

基于神经网络的语音识别模型、图像检测模型、广告推荐模型等在日常生活中应用越来越广，为了不断提升神经网络模型精度，神经网络模型的深度和体积都在持续增长。以语音识别为例，从深度神经网络到卷积神经网络，再发展循环神经网络，每一次技术的变革都给模型推理带来更大的计算需求。尤其是循环神经网络，与前馈网络不同之处在于其建模了时间维度的隐层状态依赖关系，需要按时间维度逐帧进行推理，因此推理计算的延迟更大。因此，如何尽可能地在保证神经网络模型的识别精度的前提下，提高神经网络模型的推理速度成为亟待解决的技术问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种神经网络模型的训练方法。

本发明的第二个目的在于提出一种神经网络模型的训练装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种神经网络模型的训练方法，包括：

获取神经网络初始模型；

对所述神经网络初始模型的网络参数进行参数量化以生成参数量化神经网络模型；以及

对所述参数量化神经网络模型进行激活量化。

进一步地，所述参数量化神经网络模型包括多个网络层，所述对所述参数量化神经网络模型进行激活量化，包括：

获取激活函数，通过所述激活函数对所述参数量化神经网络模型的多个网络层的计算结果进行激活以生成激活结果；