[发明专利]基于L21范数的提升卷积神经网络泛化能力的方法有效

申请号：	201510566554.2	申请日：	2015-09-08
公开（公告）号：	CN105160400B	公开（公告）日：	2018-03-02
发明（设计）人：	龚怡宏;张世周;王进军;石伟伟	申请（专利权）人：	西安交通大学
主分类号：	G06N3/02	分类号：	G06N3/02;G06K9/66
代理公司：	西安通大专利代理有限责任公司61200	代理人：	闵岳峰
地址：	710049 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于L21范数的提升卷积神经网络泛化能力的方法，属于计算机视觉，深度学习特征表示领域。其实现步骤为设计好用于特定分类任务的卷积神经网络；选定设计好的卷积网络某高层，添加基于类内特征的L21范数约束；使用基于mini‑batch的随机梯度法进行整个网络的训练，根据误差反传原则，L21范数正则约束层的梯度灵敏度需要跟原始目标函数的梯度灵敏度相加，形成最终的参数梯度值；训练结束之后，将L21约束层去掉，使用原网络对输入图像进行前向计算，获得输入图像的特征表示；本发明的图像特征表示方法，大大加强了给定原始卷积神经网络的泛化能力，增强了输入图像的特征表达能力，同时基本上不增加额外的计算资源。
搜索关键词：	基于 l21 范数提升卷积神经网络泛化能力方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于L21范数的提升卷积神经网络泛化能力的方法，其特征在于，包括以下步骤：1)将待处理图像集划分为训练集、验证集和测试集；2)设计用于待处理图像集分类任务的卷积神经网络，包括层数，卷积核大小，每一层的特征图个数以及全连接层的节点个数，各层参数初始化策略；设选定的卷积神经网络模型共有M层，给定一个mini‑batch的训练样本n为一个mini‑batch的大小；Xi表示输入的原始待处理图像；ci∈{1,2,…,C}是相应的类别标签，C是类别总数，选定的卷积神经网络模型的目标函数如下：其中，W＝(W(1),…,W(M)；b(1),…,b(M))，即W表示选定的卷积神经网络模型的全部参数，W(m)表示选定的卷积神经网络模型第m层的权重参数，b(m)表示选定的卷积神经网络模型第m层的偏置参数，l(W,Xi,ci)表示样本Xi的损失函数；3)选定步骤2)中设计好的卷积神经网络中的一层或几层，对选定层的特征添加基于类内特征的L21范数约束，使得同一类输入图像的激活相对一致，形成新的卷积神经网络模型；定义一个mini‑batch中的n个输入样本在卷积神经网络某高层的隐层特征表示为矩阵A，A的维度为m×n，即该层具有m个神经元，也即该层的特征表示为m维的特征向量，每一列表示一个输入样本，其中，矩阵A的表达如下；定义该层的L21范数约束，也即神经元的类别选择性约束条件为：其中，m表示该层神经元的个数，aij表示第j个样本在第i个神经元上的响应值，ωk表示第k类样本，表示第k类样本的二范数；最小化该约束条件使得同一类样本在同一个神经元上表现出一致的特性，即激活或者不激活该神经元；4)按照基于mini‑batch的随机梯度下降方法，利用训练集来训练新的卷积神经网络模型，新的卷积神经网络模型训练好之后，利用训练好的卷积神经网络模型完成对待处理图像特征提取。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安交通大学，未经西安交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510566554.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于L21范数的提升卷积神经网络泛化能力的方法有效

专利文献下载