[发明专利]基于L21范数的提升卷积神经网络泛化能力的方法有效
申请号: | 201510566554.2 | 申请日: | 2015-09-08 |
公开(公告)号: | CN105160400B | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 龚怡宏;张世周;王进军;石伟伟 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06N3/02 | 分类号: | G06N3/02;G06K9/66 |
代理公司: | 西安通大专利代理有限责任公司61200 | 代理人: | 闵岳峰 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 l21 范数 提升 卷积 神经网络 泛化 能力 方法 | ||
1.基于L21范数的提升卷积神经网络泛化能力的方法,其特征在于,包括以下步骤:
1)将待处理图像集划分为训练集、验证集和测试集;
2)设计用于待处理图像集分类任务的卷积神经网络,包括层数,卷积核大小,每一层的特征图个数以及全连接层的节点个数,各层参数初始化策略;设选定的卷积神经网络模型共有M层,给定一个mini-batch的训练样本n为一个mini-batch的大小;Xi表示输入的原始待处理图像;ci∈{1,2,…,C}是相应的类别标签,C是类别总数,选定的卷积神经网络模型的目标函数如下:
其中,W=(W(1),…,W(M);b(1),…,b(M)),即W表示选定的卷积神经网络模型的全部参数,W(m)表示选定的卷积神经网络模型第m层的权重参数,b(m)表示选定的卷积神经网络模型第m层的偏置参数,l(W,Xi,ci)表示样本Xi的损失函数;
3)选定步骤2)中设计好的卷积神经网络中的一层或几层,对选定层的特征添加基于类内特征的L21范数约束,使得同一类输入图像的激活相对一致,形成新的卷积神经网络模型;定义一个mini-batch中的n个输入样本在卷积神经网络某高层的隐层特征表示为矩阵A,A的维度为m×n,即该层具有m个神经元,也即该层的特征表示为m维的特征向量,每一列表示一个输入样本,其中,矩阵A的表达如下;
定义该层的L21范数约束,也即神经元的类别选择性约束条件为:
其中,m表示该层神经元的个数,aij表示第j个样本在第i个神经元上的响应值,ωk表示第k类样本,表示第k类样本的二范数;最小化该约束条件使得同一类样本在同一个神经元上表现出一致的特性,即激活或者不激活该神经元;
4)按照基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷积神经网络模型,新的卷积神经网络模型训练好之后,利用训练好的卷积神经网络模型完成对待处理图像特征提取。
2.根据权利要求1所述的基于L21范数的提升卷积神经网络泛化能力的方法,其特征在于,步骤3)中,选定步骤2)中的卷积神经网络模型的高层,即靠近输出的层,添加基于类内特征的L21范数约束。
3.根据权利要求1所述的基于L21范数的提升卷积神经网络泛化能力的方法,其特征在于,步骤3)中,对选定层的特征做基于L21范数的正则约束,形成一个新的卷积神经网络模型的目标函数为:
其中,λ是平衡原始损失函数和L21范数正则约束项的参数。
4.根据权利要求3中所述的基于L21范数的提升卷积神经网络泛化能力的方法,其特征在于,对于形成的新的卷积神经网络模型的目标函数,利用基于mini-batch的随机梯度下降法进行优化,先计算出L21范数正则约束项的梯度灵敏度,然后根据误差反传原则,将卷积神经网络的各层参数的梯度计算出来,与原始的卷积神经网络损失函数部分项的梯度相加;
L21范数正则约束项的梯度灵敏度计算如下:
根据步骤3)中,中的定义,首先,将矩阵A,按列分块:
之后,定义表示第i行各类样本的二范数组成的C维向量,即Ij=[0,0,…1,0]表示第j个样本的向量化标签,即只有对应类别上数字为1,其余为0,共C维;则矩阵A对第j个样本,即A的第j列的灵敏度计算公式为:
其中,diag表示对角化矩阵,·表示向量内积操作,ε为无穷小的正数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510566554.2/1.html,转载请声明来源钻瓜专利网。