[发明专利]二进制神经网络正则化的设备、方法和系统在审
申请号: | 201980096057.7 | 申请日: | 2019-05-07 |
公开(公告)号: | CN113826115A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 德米特里·尤里耶维奇·伊格纳托夫;亚历山大·尼古拉耶维奇·菲利波夫;邹学益 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/063 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 二进制 神经网络 正则 设备 方法 系统 | ||
本发明涉及神经网络领域,具体地,涉及二进制神经网络(binary neural network,BNN)。本发明提出了一种用于BNN正则化的设备和方法。所述设备用于获取BNN的二进制权重,并使用反向传播方法更改所述BNN的所述二进制权重。因此,更改所述二进制权重增加了或最低程度地减少了权重分布的信息熵。
技术领域
本发明涉及神经网络领域,具体地涉及二进制神经网络(binary neuralnetwork,BNN)。本发明涉及BNN的正则化。为此,本发明提出了一种用于BNN正则化的设备和方法。例如,所述设备或方法可以用于训练BNN的系统中。
背景技术
现代卷积神经网络(convolutional neural network,CNN)用于解决大量的业务任务,包括图像分类、对象检测、销售预测、客户研究、数据验证、风险管理等。准确的CNN的训练是一个困难、复杂的过程,事实上,是商业项目和科学调查成功的关键部分。传统上,L1/L2惩罚和权重衰减是用于正则化的方法。这些方法影响权重分布、防止过拟合,并提供更好的泛化和更高的CNN预测准确度。
如今,移动技术正在迅速从用于电话和消息传递的简单配件发展到多任务设备,这些设备不仅用于导航、互联网浏览和即时消息,还用于图像分类、对象检测或自然语言处理等智能任务。这些解决方案需要紧凑、低功耗和鲁棒的BNN。在具有高速、小尺寸和有限的能量使用等优点的同时,BNN具有以下缺点:使用传统的正则化方法,不可能减少其过拟合并提高其准确度。传统的正则化方法是针对浮点权重开发的,不能影响BNN的二进制权重,所述二进制权重由两个固定数字(例如,1和–1)表示。
因此,训练紧凑、鲁棒且准确的BNN需要新的、有效的正则化解决方案。
为了开发一个有效的BNN训练系统,首先需要选择适当的二进制权重正则化原则。然后,必须基于所选择的原则,提供新的、高效的正则化解决方案,以提高BNN的准确度。
解决方案应具有以下特征:
·面向二进制:提高BNN的信息容量和预测准确度;
·多阶段:在训练的不同阶段为BNN正则化提供若干高效的方法;
·层特定:为BNN的单独单元的正则化提供高效的方法;
·高效:保证对训练后的BNN进行实时正则化。
如上所述,传统上使用L1/L2惩罚和权重衰减正则化方法。
在机器学习领域,具体地在人工神经网络训练过程中,正则化是一种引入附加信息的方法,以防止过拟合,即预测结果与有限的训练数据点集的拟合太接近。正则化方法可以减少过拟合,即使训练数据的数量基本上是有限的。正则化的一般理念是在成本函数中添加一个额外的项,称为正则化项或惩罚。在传统的L2正则化的情况下,这种惩罚由网络中所有权重的平方和表示,并按预定义因子缩放。在传统的L1正则化的情况下,使用权重的绝对值,而不是权重的平方。
直观地,正则化的效果是说服网络在学习过程期间保持较小的权重。如何较大的权重会显著降低预测误差,则允许使用较大的权重。从另一个角度来看,正则化可以被视为在寻找小权重与最大程度减小原始成本函数之间进行妥协的一种方式。
另一种传统的方法是权重衰减,它是在权重更新后将每个权重按因子(即,介于0与1之间的值)进行缩放。权重衰减可以与基于梯度的更新解耦,并可以在训练循环中单独执行。图10示出在卷积神经网络训练的公共循环中传统L1或L2惩罚和权重衰减的使用。
但是,上述正则化方法不能应用于BNN的二进制权重,这是因为不可能减小两个固定数的绝对值,而且由于在相对于0对称的值(例如,权重1和–1)的情况下,权重的绝对值的总和是恒定的,因此考虑权重的绝对值的总和是没有意义的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980096057.7/2.html,转载请声明来源钻瓜专利网。