[发明专利]基于L21范数的提升卷积神经网络泛化能力的方法有效

申请号：	201510566554.2	申请日：	2015-09-08
公开（公告）号：	CN105160400B	公开（公告）日：	2018-03-02
发明（设计）人：	龚怡宏;张世周;王进军;石伟伟	申请（专利权）人：	西安交通大学
主分类号：	G06N3/02	分类号：	G06N3/02;G06K9/66
代理公司：	西安通大专利代理有限责任公司61200	代理人：	闵岳峰
地址：	710049 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 l21 范数提升卷积神经网络泛化能力方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于L21范数的提升卷积神经网络泛化能力的方法，其特征在于，包括以下步骤：

1)将待处理图像集划分为训练集、验证集和测试集；

2)设计用于待处理图像集分类任务的卷积神经网络，包括层数，卷积核大小，每一层的特征图个数以及全连接层的节点个数，各层参数初始化策略；设选定的卷积神经网络模型共有M层，给定一个mini-batch的训练样本n为一个mini-batch的大小；X_i表示输入的原始待处理图像；c_i∈{1,2,…,C}是相应的类别标签，C是类别总数，选定的卷积神经网络模型的目标函数如下：

其中，W＝(W⁽¹⁾,…,W^(M)；b⁽¹⁾,…,b^(M))，即W表示选定的卷积神经网络模型的全部参数，W^(m)表示选定的卷积神经网络模型第m层的权重参数，b^(m)表示选定的卷积神经网络模型第m层的偏置参数，l(W,X_i,c_i)表示样本X_i的损失函数；

3)选定步骤2)中设计好的卷积神经网络中的一层或几层，对选定层的特征添加基于类内特征的L21范数约束，使得同一类输入图像的激活相对一致，形成新的卷积神经网络模型；定义一个mini-batch中的n个输入样本在卷积神经网络某高层的隐层特征表示为矩阵A，A的维度为m×n，即该层具有m个神经元，也即该层的特征表示为m维的特征向量，每一列表示一个输入样本，其中，矩阵A的表达如下；

定义该层的L21范数约束，也即神经元的类别选择性约束条件为：

其中，m表示该层神经元的个数，a_ij表示第j个样本在第i个神经元上的响应值，ω_k表示第k类样本，表示第k类样本的二范数；最小化该约束条件使得同一类样本在同一个神经元上表现出一致的特性，即激活或者不激活该神经元；

4)按照基于mini-batch的随机梯度下降方法，利用训练集来训练新的卷积神经网络模型，新的卷积神经网络模型训练好之后，利用训练好的卷积神经网络模型完成对待处理图像特征提取。

2.根据权利要求1所述的基于L21范数的提升卷积神经网络泛化能力的方法，其特征在于，步骤3)中，选定步骤2)中的卷积神经网络模型的高层，即靠近输出的层，添加基于类内特征的L21范数约束。

3.根据权利要求1所述的基于L21范数的提升卷积神经网络泛化能力的方法，其特征在于，步骤3)中，对选定层的特征做基于L21范数的正则约束，形成一个新的卷积神经网络模型的目标函数为：

其中，λ是平衡原始损失函数和L21范数正则约束项的参数。

4.根据权利要求3中所述的基于L21范数的提升卷积神经网络泛化能力的方法，其特征在于，对于形成的新的卷积神经网络模型的目标函数，利用基于mini-batch的随机梯度下降法进行优化，先计算出L21范数正则约束项的梯度灵敏度，然后根据误差反传原则，将卷积神经网络的各层参数的梯度计算出来，与原始的卷积神经网络损失函数部分项的梯度相加；

L21范数正则约束项的梯度灵敏度计算如下：

根据步骤3)中，中的定义，首先，将矩阵A，按列分块：

之后，定义表示第i行各类样本的二范数组成的C维向量，即I_j＝[0,0,…1,0]表示第j个样本的向量化标签，即只有对应类别上数字为1，其余为0，共C维；则矩阵A对第j个样本，即A的第j列的灵敏度计算公式为：

其中，diag表示对角化矩阵，·表示向量内积操作，ε为无穷小的正数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安交通大学，未经西安交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510566554.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于L21范数的提升卷积神经网络泛化能力的方法有效

专利文献下载