[发明专利]一种基于卷积神经网络的图像背景分割和识别方法有效

申请号：	201810468345.8	申请日：	2018-05-16
公开（公告）号：	CN108765449B	公开（公告）日：	2022-04-26
发明（设计）人：	方巍;丁叶文;张飞鸿	申请（专利权）人：	南京信息工程大学
主分类号：	G06T7/194	分类号：	G06T7/194
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	210044 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于卷积神经网络图像背景分割识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于卷积神经网络的图像背景分割和识别方法，其特征在于：包括如下步骤：

(1)根据待处理图像的内容主体确定学习样本，所述样本标注有图像主体信息；

(2)根据样本图像信息，利用背景分割卷积神经网络进行训练，得到背景分割模型；

通过背景分割卷积神经网络自主学习样本，自我调节模型参数至结束，其结束条件为学习完所有的图像样本，然后训练得到背景分割模型，并保存于本地；

背景分割卷积神经网络模型接受任意尺寸的输入图像，然后通过反卷积对最后一个卷积层的特征图进行上采样，使它恢复到输入图像相同的尺寸，从而对每个像素都进行预测，同时保留了原始输入图像的空间信息，最后在与输入图像等大小的特征图上对每个像素进行分类，逐像素地分类计算损失，相当于每个像素对应一个训练样本；

模型将传统CNN中的全连接层转化成卷积层，将3个全连接层转换为卷积层，卷积核的大小分别为(4096,1,1)、(4096,1,1)、(m,1,1)，模型输入的图像可以是任意大小，在经过网络的第一层pooling之后变为原图的1/2，第二层pooling后变为原图大小的1/4，第三层pooling后变为原图大小的1/8，第四层pooling变为原图大小的1/16，第五层pooling变为原图大小的1/32，最后模型直接对1/32尺寸的特征图进行上采样操作，这个上采样是通过反卷积实现的，这样的操作还原的图像就是conv5中的卷积核中的特征；

(3)进行图像背景分割，根据分类卷积神经网络进行训练，得到识别分类模型；

该模型是根据经典的VGGNet修改所得到的，模型一共包含11层，具体为：

第一层：卷积层，其输入为原始的图像，原始图像的尺寸为224×224×3；卷积层的过滤器尺寸为5×5，深度为32，使用全0补充，步长为1；这一层的输出的尺寸为224×224，深度为32；这一个卷积层总共有5×5×3×32+32＝2432个参数，其中32为偏置项参数个数，卷积层的参数个数只和过滤器的尺寸，深度以及当前层节点矩阵的深度有关；

第二层：池化层，这一层的输入为第一层的输出，是一个224×224×32的节点矩阵；本层采用的过滤器大小为2×2，步长为2，所以本层的输出矩阵大小为112×112×32；

第三层：卷积层，本层的输入矩阵大小为112×112×32，采用的过滤器大小为5×5，深度为64，使用全0补充，步长为1；这一层的输出的尺寸为112×112×64；

第四层：池化层，本层的输入矩阵大小为112×112×64，采用的过滤器大小为2×2，步长为2，本层的输出矩阵大小为56×56×64；

第五层：卷积层，本层的输入矩阵大小为56×56×64，采用的过滤器大小为3×3，深度为128，使用全0补充，步长为1；

第六层：池化层，本层的输入矩阵大小为56×56×128，采用的过滤器大小为2×2，步长为2，本层的输出矩阵大小为28×28×128；

第七层：卷积层，本层的输入矩阵大小为28×28×128，采用的过滤器大小为3×3，深度为128，使用全0补充，步长为1；

第八层：池化层，本层的输入矩阵大小为28×28×128，本层采用的过滤器大小为2×2，步长为2，本层的输出矩阵大小为14×14×128；

第九层：全连接层，本层输入为14×14×128矩阵，将其拉直为一个长度为14×14×128的向量，即将一个三维矩阵拉直到一维空间以向量的形式表示，进入全连接层进行训练；本层的输出节点个数为1024；

第十层：全连接层，本层的输入节点个数为1024个，输出节点个数为512个；

第十一层：全连接层，本层的输入节点个数为512个，输出节点个数为m个，m表示类别数，

同时使用ReLU作为激活函数，其函数为：

还使用局部响应归一化，来提高模型的准确率，其函数为：