[发明专利]一种基于全卷积和长短期记忆单元的场景语义分割方法在审
申请号: | 201710739098.6 | 申请日: | 2017-08-25 |
公开(公告)号: | CN107480726A | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 程建;张建;朱晓雅;张泽厚 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 成都弘毅天承知识产权代理有限公司51230 | 代理人: | 徐金琼,刘东 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 短期 记忆 单元 场景 语义 分割 方法 | ||
技术领域
本发明涉及图像语义分割和深度学习领域,尤其涉及一种基于全卷积和长短期记忆单元的场景语义分割方法。
背景技术
场景语义分割应属于图像语义分割在场景图像上的应用。场景语义分割对后续的计算机视觉任务具有至关重要的作用,例如无人驾驶视频分析中道路和非道路场景的区分。场景语义分割一般建模为像素级别的多分类问题,其目标是将图像的每一像素区分为预定义的多个类别之一。
传统的场景语义分割方法一般从图像像素邻域小窗提取人为设计的特征在做判别,例如纹理特征。同时,考虑到图像像素间的空间依赖性,研究人员基于低级视觉特征的相似性构建更高级的全局上下文的表征,例如马尔科夫随机场和条件随机场。
近年来,绝大多数当前最佳的场景语义分割方法都是基于卷积神经网络的。卷积神经网络能够学习到优于传统手工特征的具有区分性的特征,尤其全卷积网络能够端到端地从原始的场景图像预测得到稠密的分割结果。另外,循环神经网络在自然语言处理和语音识别等领域显示出了其建模的有效性。研究人员将语音或文本这些一维数据间的时域依赖拓展到二维图像的空间依赖,构建了一些循环神经网络的变体应用于图像识别以及语义分割。在其中,长短期记忆单元是为了解决基础循环神经网络难以学习长期依赖的一种循环网络结构。
已有的场景语义分割方法多数基于传统特征的概率图模型(马尔科夫随机场和条件随机场均属于概率图模型范畴)。
发明内容
本发明的目的在于:为解决现有技术中的场景图像分割准确率低、图像中目标过分割和欠分割的问题,本发明提供一种基于全卷积和长短期记忆单元的场景语义分割方法。
本发明的技术方案如下:
一种基于全卷积和长短期记忆单元的场景语义分割方法,包括如下步骤:
S1:构建基于全卷积、金字塔池化模块与长短期记忆单元模块的深度神经网络。
S2:输入场景图像,在深度神经网络中进行一次前向传播得到预测图像A;对标注图像进行尺度缩减后得到与预测图像同分辨率的标注图像A,这里的标注图像是对应于原图像的人工分割好的标注;比对预测图像A和标注图像A,以Softmax损失为目标函数、随机梯度下降为优化方法,对步骤1得到的深度神经网络进行权值更新。
S3:多次进行步骤S2,直到损失无法下降时结束训练。
S4:输入新的场景图像至已训练好的深度神经网络,并做双线性插值到原图分辨率,得到该场景的语义分割结果。
具体地,所述深度神经网络的结构包括前端网络和后端网络,所述前端网络基于VGG网络,由5个卷积模块组成:卷积模块一、卷积模块二均包括2个卷积层、1个修正线性单元层和1个池化层,卷积模块三包括3个卷积层、1个修正线性单元层和1个池化层,卷积模块四、卷积模块五均包括3个卷积层和1个修正线性单元层;所述后端网络由金字塔池化模块和长短期记忆单元模块组成。
具体地,所述金字塔池化模块针对场景图像中的不同尺度目标提取特征;所述金字塔池化模块分别进行4种不同核大小的池化操作,使得具有较小卷积核的池化层学习较小目标的特征,具有较大卷积核的池化层学习较大目标的特征;在每个池化层后分别连接一个卷积层,使得池化后的特征根据反向传播的误差进行微调。由于不同核大小的池化会得到不同分辨率的特征图,加入反卷积引入上采样得到相同的分辨率,使最后的特征图串联成为可能。
具体地,所述长短期记忆单元模块从图像在二维邻域上强相关性出发,得深度神经网络学习的特征图在二维结构上进行邻域间的全局信息交流;该模块由两部分组成,垂直扫描模块和水平扫描模块,垂直扫描模块垂直扫描特征图得到一个序列,水平扫描模块水平扫描特征图得到另一个序列,利用长短期记忆单元对于序列相关性的建模能力,学习图像的全局特征。
具体地,S2中,所述权值更新的具体过程为:
S21:网络初始化:使用在ImageNet数据集上预训练的VGG-16网络的参数作为前端网络的初始值,金字塔池化模块中的卷积层由标准高斯分布进行参数初始化,长短期记忆单元模块中的循环卷积层使用标准均匀分布初始化参数。
S22:训练:以每一像素的交叉熵损失的和作为损失函数,使用随机梯度下降法为优化方法,初始学习率设置为0.001,后面根据loss的下降效果适当降低学习率,当loss下降到一定程度不再下降时结束训练。
建立场景分割图像数据集以及训练图像和标注图像的预处理,构建深度神经网络,以Softmax为损失函数进行训练。
采用上述方案后,本发明的有益效果如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710739098.6/2.html,转载请声明来源钻瓜专利网。