[发明专利]基于L21范数的提升卷积神经网络泛化能力的方法有效
申请号: | 201510566554.2 | 申请日: | 2015-09-08 |
公开(公告)号: | CN105160400B | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 龚怡宏;张世周;王进军;石伟伟 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06N3/02 | 分类号: | G06N3/02;G06K9/66 |
代理公司: | 西安通大专利代理有限责任公司61200 | 代理人: | 闵岳峰 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 l21 范数 提升 卷积 神经网络 泛化 能力 方法 | ||
技术领域:
本发明涉及计算机视觉、深度学习特征表示技术领域,具体涉及一种基于L21范数的提升卷积神经网络泛化能力的方法。
背景技术:
卷积神经网络是人工神经网络的一种,深层的卷积神经网络已成为当前语音分析和图像识别领域的研究热点,也是众多公开数据集上冠军的保持者。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。
1962年,Hubel和Wiesel通过对猫视觉皮层细胞的研究,提出了感受野的概念。1984年日本学者Fukushima基于感受野概念提出的神经认知机(neocognitron)可以看作是卷积神经网络的第一个实现网络,也是感受野概念在人工神经网络领域的首次应用。卷积神经网络是在此基础之上发展而来,它是一个多层的神经网络,每层由多个二维平面组成(成为特征图),而每个平面由多个独立神经元组成。卷积神经网络大致由卷积层和池化层交叠组成,卷积层提取特征,每个神经元的输入与前一层的局部感受野相连,并提取该局部的特征,一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来。池化层求解局部平均(平均池化)或者记录局部最大特征(最大池化),使得输入图像对较小的畸变,变形具有较高的容忍能力。
卷积神经网络为有监督的学习方法,通过在最后一层添加体现分类目标的代价函数,在训练样本集上面最小化代价函数,来达到卷积神经网络参数学习的目的。
发明内容:
本发明的目的在于针对上述现有技术的不足,提供了一种基于L21范数的提升卷积神经网络泛化能力的方法。
为达到上述目的,本发明采用如下技术方案予以实现的:
基于L21范数的提升卷积神经网络泛化能力的方法,包括以下步骤:
1)将待处理图像集划分为训练集、验证集和测试集;
2)设计用于待处理图像集分类任务的卷积神经网络,包括层数,卷积核大小,每一层的特征图个数以及全链接层的节点个数,各层参数初始化策略;
3)选定步骤2)中设计好的卷积神经网络中的一层或几层,对选定层的特征添加基于类内特征的L21范数约束,使得同一类输入图像的激活相对一致,形成新的卷积神经网络模型;
4)按照基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷积神经网络模型,新的卷积神经网络模型训练好之后,利用训练好的卷积神经网络模型完成对待处理图像特征提取。
本发明进一步的改进在于,设计好步骤2)中的卷积神经网络的结构;
设选定的卷积神经网络模型共有M层,给定一个mini-batch的训练样本n为一个mini-batch的大小;Xi表示输入的原始待处理图像;ci∈{1,2,…,C}是相应的类别标签,C是类别总数,选定的卷积神经网络模型的目标函数如下:
其中,W=(W(1),…,W(M);b(1),…,b(M)),即W表示选定的卷积神经网络模型的全部参数,W(m)表示选定的卷积神经网络模型第m层的权重参数,b(m)表示选定的卷积神经网络模型第m层的偏置参数,表示样本Xi的损失函数。
本发明进一步的改进在于,步骤3)中,选定步骤2)中的卷积神经网络模型的高层,即靠近输出的层,添加基于类内特征的L21范数约束。
本发明进一步的改进在于,步骤3)中,定义一个mini-batch中的n个输入样本在卷积神经网络某高层的隐层特征表示为矩阵A,A的维度为m×n,即该层具有m个神经元,也即该层的特征表示为m维的特征向量,每一列表示一个输入样本,其中,矩阵A的表达如下;
定义该层的L21范数约束,也即神经元的类别选择性约束条件为:
其中,m表示该层神经元的个数,c表示类别种类数目,aij表示第j个样本在第i个神经元上的响应值,ωk表示第k类样本,表示第k类样本的二范数;最小化该约束条件使得同一类样本在同一个神经元上表现出一致的特性,即激活或者不激活该神经元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510566554.2/2.html,转载请声明来源钻瓜专利网。