[发明专利]基于全残差空洞卷积神经网络的道路场景语义分割方法有效
申请号: | 201910664797.8 | 申请日: | 2019-07-23 |
公开(公告)号: | CN110490205B | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 周武杰;朱家懿;叶绿;雷景生;王海江;何成 | 申请(专利权)人: | 浙江科技学院 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 全残差 空洞 卷积 神经网络 道路 场景 语义 分割 方法 | ||
1.一种基于全残差空洞卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建全残差空洞卷积神经网络:全残差空洞卷积神经网络包括输入层、隐藏层和输出层,隐藏层包括1个过渡卷积块、8个神经网络块、7个反卷积块、4个融合层;
对于输入层,其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量,其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层;其中,要求输入层的输入端接收的输入图像的宽度为W、高度为H;
对于隐藏层,过渡卷积块的输入端为隐藏层的输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,过渡卷积块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为G1;第1个神经网络块的输入端接收G1中的所有特征图,第1个神经网络块的输出端输出128幅宽度为且高度为的特征图,将这128幅特征图构成的集合记为S1;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为S2;第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出512幅宽度为且高度为的特征图,将这512幅特征图构成的集合记为S3;第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出1024幅宽度为且高度为的特征图,将这1024幅特征图构成的集合记为S4;第1个反卷积块的输入端接收S4中的所有特征图,第1个反卷积块的输出端输出512幅宽度为且高度为的特征图,将这512幅特征图构成的集合记为F1;第5个神经网络块的输入端接收S3中的所有特征图,第5个神经网络块的输出端输出512幅宽度为且高度为的特征图,将这512幅特征图构成的集合记为S5;第1个融合层的输入端接收F1中的所有特征图和S5中的所有特征图,相加融合操作后第1个融合层的输出端输出512幅宽度为且高度为的特征图,将这512幅特征图构成的集合记为A1;第2个反卷积块的输入端接收A1中的所有特征图,第2个反卷积块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为F2;第6个神经网络块的输入端接收S2中的所有特征图,第6个神经网络块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为S6;第3个反卷积块的输入端接收S3中的所有特征图,第3个反卷积块的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为F3;第2个融合层的输入端接收F2中的所有特征图、S6中的所有特征图和F3中的所有特征图,相加融合操作后第2个融合层的输出端输出256幅宽度为且高度为的特征图,将这256幅特征图构成的集合记为A2;第4个反卷积块的输入端接收A2中的所有特征图,第4个反卷积块的输出端输出128幅宽度为且高度为的特征图,将这128幅特征图构成的集合记为F4;第7个神经网络块的输入端接收S1中的所有特征图,第7个神经网络块的输出端输出128幅宽度为且高度为的特征图,将这128幅特征图构成的集合记为S7;第5个反卷积块的输入端接收S2中的所有特征图,第5个反卷积块的输出端输出128幅宽度为且高度为的特征图,将这128幅特征图构成的集合记为F5;第3个融合层的输入端接收F4中的所有特征图、S7中的所有特征图和F5中的所有特征图,相加融合操作后第3个融合层的输出端输出128幅宽度为且高度为的特征图,将这128幅特征图构成的集合记为A3;第6个反卷积块的输入端接收A3中的所有特征图,第6个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为F6;第8个神经网络块的输入端接收G1中的所有特征图,第8个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为S8;第7个反卷积块的输入端接收S1中的所有特征图,第7个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为F7;第4个融合层的输入端接收F6中的所有特征图、S8中的所有特征图和F7中的所有特征图,相加融合操作后第4个融合层的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为A4,第4个融合层的输出端为隐藏层的输出端;
对于输出层,其输入端接收A4中的所有特征图,其输出端输出12幅宽度为W且高度为H的特征图,将这12幅特征图构成的集合记为O1;
所述的步骤1_2中,第1个至第4个神经网络块的结构相同,其由依次设置的第四卷积层、第一R型神经网络块和第一B型神经网络块组成,第四卷积层的输入端为其所在的神经网络块的输入端,第一R型神经网络块的输入端接收第四卷积层的输出端输出的所有特征图,第一B型神经网络块的输入端接收第一R型神经网络块的输出端输出的所有特征图,第一B型神经网络块的输出端为其所在的神经网络块的输出端;其中,第1个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”、步长为2,第1个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷积核个数均为128,第2个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为“same”、步长为2,第2个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷积核个数均为256,第3个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为“same”、步长为2,第3个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷积核个数均为512,第4个神经网络块中的第四卷积层的卷积核大小为3×3、卷积核个数为1024、补零参数为“same”、步长为2,第4个神经网络块中的第一R型神经网络块和第一B型神经网络块的卷积核个数均为1024;
第5个至第8个神经网络块的结构相同,其由依次设置的第二R型神经网络块和第二B型神经网络块组成,第二R型神经网络块的输入端为其所在的神经网络块的输入端,第二B型神经网络块的输入端接收第二R型神经网络块的输出端输出的所有特征图,第二B型神经网络块的输出端为其所在的神经网络块的输出端;其中,第5个神经网络块中的第二R型神经网络块和第二B型神经网络块的卷积核个数均为512,第6个神经网络块中的第二R型神经网络块和第二B型神经网络块的卷积核个数均为256,第7个神经网络块中的第二R型神经网络块和第二B型神经网络块的卷积核个数均为128,第8个神经网络块中的第二R型神经网络块和第二B型神经网络块的卷积核个数均为64;
所述的第一R型神经网络块和所述的第二R型神经网络块的结构相同,其由依次设置的第五卷积层、第四批量归一化层、第四激活层、第一空洞卷积层、第五批量归一化层、第五激活层、第六卷积层、第六批量归一化层、第六激活层组成,第五卷积层的输入端为其所在的R型神经网络块的输入端,第四批量归一化层的输入端接收第五卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批量归一化层的输出端输出的所有特征图,第一空洞卷积层的输入端接收第四激活层的输出端输出的所有特征图,第五批量归一化层的输入端接收第一空洞卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批量归一化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激活层的输出端输出的所有特征图,第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批量归一化层的输出端输出的所有特征图,将输入到第五卷积层的输入端的所有特征图与第六激活层的输出端输出的所有特征图进行跳跃连接后作为所在的R型神经网络块的输出端输出的所有特征图;其中,在第1个神经网络块中的第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”、步长为1、空洞卷积参数为2;在第2个神经网络块中的第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为“same”、步长为1、空洞卷积参数为2;在第3个神经网络块中的第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为“same”、步长为1、空洞卷积参数为2;在第4个神经网络块中的第一R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为1024、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为1024、补零参数为“same”、步长为1、空洞卷积参数为2;在第5个神经网络块中的第二R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为“same”、步长为1、空洞卷积参数为2;在第6个神经网络块中的第二R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为“same”、步长为1、空洞卷积参数为2;在第7个神经网络块中的第二R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”、步长为1、空洞卷积参数为2;在第8个神经网络块中的第二R型神经网络块中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”、步长均为1,第一空洞卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为“same”、步长为1、空洞卷积参数为2;第四激活层、第五激活层和第六激活层的激活方式均为“Relu”;
所述的第一B型神经网络块和所述的第二B型神经网络块的结构相同,其由依次设置的第七卷积层、第七批量归一化层、第七激活层、第二空洞卷积层、第八批量归一化层、第八激活层、第八卷积层、第九批量归一化层、第九激活层组成,第七卷积层的输入端为其所在的B型神经网络块的输入端,第七批量归一化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批量归一化层的输出端输出的所有特征图,第二空洞卷积层的输入端接收第七激活层的输出端输出的所有特征图,第八批量归一化层的输入端接收第二空洞卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批量归一化层的输出端输出的所有特征图,第八卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批量归一化层的输入端接收第八卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批量归一化层的输出端输出的所有特征图,第九激活层的输出端为其所在的B型神经网络块的输出端;其中,在第1个神经网络块中的第一B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”、步长为1、空洞卷积参数为2;在第2个神经网络块中的第一B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为“same”、步长为1、空洞卷积参数为2;在第3个神经网络块中的第一B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为“same”、步长为1、空洞卷积参数为2;在第4个神经网络块中的第一B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为1024、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为1024、补零参数为“same”、步长为1、空洞卷积参数为2;在第5个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为512、补零参数为“same”、步长为1、空洞卷积参数为2;在第6个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为256、补零参数为“same”、步长为1、空洞卷积参数为2;在第7个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”、步长为1、空洞卷积参数为2;在第8个神经网络块中的第二B型神经网络块中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”、步长均为1,第二空洞卷积层的卷积核大小为3×3、卷积核个数为64、补零参数为“same”、步长为1、空洞卷积参数为2;第七激活层、第八激活层和第九激活层的激活方式均为“Relu”;
步骤1_3:将训练集中的每幅原始的道路场景图像作为输入图像,输入到全残差空洞卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将与之间的损失函数值记为采用负对数似然函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到全残差空洞卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全残差空洞卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待语义分割的道路场景图像;其中,1≤i′≤W′,1≤j′≤H′,W′表示的宽度,H′表示的高度,表示中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到全残差空洞卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i′,j′)的像素点的像素值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910664797.8/1.html,转载请声明来源钻瓜专利网。