[发明专利]一种基于卷积神经网络的实时道路场景分割方法在审
申请号: | 202010793917.7 | 申请日: | 2020-08-10 |
公开(公告)号: | CN112149496A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 周武杰;林鑫杨;潘思佳;强芳芳;雷景生;周扬;邱微微 | 申请(专利权)人: | 浙江科技学院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06N3/02;G06T7/90 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 实时 道路 场景 分割 方法 | ||
1.一种基于卷积神经网络的实时道路场景分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景彩色图像和Q幅原始的道路场景热力图像及每幅原始的道路场景彩色图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景彩色图像记为将训练集中的第q幅原始的道路场景热力图像记为将对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景彩色图像对应的真实语义分割图像处理成9幅独热编码图像,将处理成的9幅独热编码图像构成的集合记为其中,Q为正整数,Q≥500,原始的道路场景彩色图像为RGB图像,原始的道路场景热力图像为灰度图像,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示的宽度,H表示的高度,与为从同一道路场景获取,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包括输入层、特征提取层、特征融合层和输出层,输入层由彩色图像输入层和热力图像输入层两部分构成,特征提取层由深层次特征提取模块和浅层次特征提取模块两部分构成,特征融合层由第一上采样层、空间注意力机制模块和空间分辨率恢复模块组成;
对于彩色图像输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给深层次特征提取模块;其中,原始RGB图像的宽度为W、高度为H;
对于热力图像输入层,其输入端接收一幅原始热力图像经纬度扩充后形成的三通道热力图像,其输出端输出三通道热力图像给深层次特征提取模块;其中,原始热力图像的宽度为W、高度为H;
对于深层次特征提取模块,其包括第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块,第一彩色结构块的输入端作为深层次特征提取模块的第一输入端接收彩色图像输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dcolour,1,Dcolour,1中的每幅特征图的宽度为高度为第一热力图结构块的输入端作为深层次特征提取模块的第二输入端接收热力图像输入层的输出端输出的三通道热力图像,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dthermal,1,Dthermal,1中的每幅特征图的宽度为高度为对Dcolour,1中的每幅特征图与Dthermal,1中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到24幅特征图,将这24幅特征图构成的集合记为DAdd,1,DAdd,1中的每幅特征图的宽度为高度为第二彩色结构块的输入端接收DAdd,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dcolour,2,Dcolour,2中的每幅特征图的宽度为高度为第二热力图结构块的输入端接收Dthermal,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dthermal,2,Dthermal,2中的每幅特征图的宽度为高度为对Dcolour,2中的每幅特征图与Dthermal,2中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到32幅特征图,将这32幅特征图构成的集合记为DAdd,2,DAdd,2中的每幅特征图的宽度为高度为第三彩色结构块的输入端接收DAdd,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dcolour,3,Dcolour,3中的每幅特征图的宽度为高度为第三热力图结构块的输入端接收Dthermal,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dthermal,3,Dthermal,3中的每幅特征图的宽度为高度为对Dcolour,3中的每幅特征图与Dthermal,3中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到64幅特征图,将这64幅特征图构成的集合记为DAdd,3,DAdd,3中的每幅特征图的宽度为高度为第四彩色结构块的输入端接收DAdd,3中的所有特征图,其输出端作为深层次特征提取模块的输出端输出160幅特征图,将这160幅特征图构成的集合记为Dcolour,4,Dcolour,4中的每幅特征图的宽度为高度为
对于浅层次特征提取模块,其仅包括一个浅层结构块,浅层结构块的输入端接收DAdd,1中的所有特征图,其输出端输出160幅特征图,将这160幅特征图构成的集合记为S,S中的每幅特征图的宽度为高度为
对于第一上采样层,其输入端接收Dcolour,4中的所有特征图,其对Dcolour,4中的每幅特征图执行四倍上采样操作,其输出端输出160幅特征图,将这160幅特征图构成的集合记为Y,Y中的每幅特征图的宽度为高度为
对Y中的所有特征图和S中的所有特征图执行拼接操作,得到320幅特征图,将这320幅特征图构成的集合记为C,C中的每幅特征图的宽度为高度为对于空间注意力机制模块,其输入端接收C中的所有特征图,其输出端输出1幅特征图,这幅特征图的宽度为高度为
将空间注意力机制模块的输出端输出的特征图作为空间位置加权图像,利用空间位置加权图像对C中的每幅特征图执行对应像素点的像素值加权操作,共得到320幅特征图,将这320幅特征图构成的集合记为F,F中的每幅特征图的宽度为高度为对于空间分辨率恢复模块,其包括依次连接的第一卷积层、第一批量归一化层、第一激活层、第二上采样层、Dropout层、第二卷积层、第三上采样层,第一激活层的激活函数为“ReLU”,第一卷积层的输入端作为空间分辨率恢复模块的输入端接收F中的所有特征图,第一卷积层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H1,H1中的每幅特征图的宽度为高度为第一批量归一化层的输入端接收H1中的所有特征图,第一批量归一化层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H2,H2中的每幅特征图的宽度为高度为第一激活层的输入端接收H2中的所有特征图,第一激活层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H3,H3中的每幅特征图的宽度为高度为第二上采样层的输入端接收H3中的所有特征图,第二上采样层对H3中的每幅特征图执行两倍上采样操作,第二上采样层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H4,H4中的每幅特征图的宽度为高度为Dropout层的输入端接收H4中的所有特征图,Dropout层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H5,H5中的每幅特征图的宽度为高度为第二卷积层的输入端接收H5中的所有特征图,第二卷积层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H6,H6中的每幅特征图的宽度为高度为第三上采样层的输入端接收H6中的所有特征图,第三上采样层对H6中的每幅特征图执行两倍上采样操作,第三上采样层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H7,H7中的每幅特征图的宽度为W、高度为H;
对于输出层,其输入端接收H7中的所有特征图,其输出端输出9幅特征图作为语义分割预测图;
步骤1_3:将训练集中的每幅原始的道路场景彩色图像作为原始RGB图像,并将训练集中的每幅原始的道路场景热力图像作为原始热力图像,将原始RGB图像的R通道分量、G通道分量和B通道分量及相应的原始热力图像经纬度扩充后形成的三通道热力图像输入到卷积神经网络中,使用Adam优化方法进行训练,得到训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图,将对应的9幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的9幅独热编码图像构成的集合之间的损失函数值,将与之间的损失函数值记为采用分类交叉熵获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后将最后一次训练获得的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待语义分割的道路场景彩色图像,令表示待语义分割的道路场景热力图像;其中,1≤i'≤W',1≤j'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(i',j')的像素点的像素值,表示中坐标位置为(i',j')的像素点的像素值,与为从同一道路场景获取;
步骤2_2:将的R通道分量、G通道分量和B通道分量及经纬度扩充后形成的三通道热力图像输入到训练好的卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的预测语义分割图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010793917.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智慧工厂云抄表系统
- 下一篇:一种远洋客船用干湿垃圾处理装置