[发明专利]一种基于卷积神经网络的实时道路场景分割方法在审

申请号：	202010793917.7	申请日：	2020-08-10
公开（公告）号：	CN112149496A	公开（公告）日：	2020-12-29
发明（设计）人：	周武杰;林鑫杨;潘思佳;强芳芳;雷景生;周扬;邱微微	申请（专利权）人：	浙江科技学院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34;G06K9/62;G06N3/02;G06T7/90
代理公司：	宁波奥圣专利代理有限公司 33226	代理人：	周珏
地址：	310023 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于卷积神经网络实时道路场景分割方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于卷积神经网络的实时道路场景分割方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的道路场景彩色图像和Q幅原始的道路场景热力图像及每幅原始的道路场景彩色图像对应的真实语义分割图像，并构成训练集，将训练集中的第q幅原始的道路场景彩色图像记为将训练集中的第q幅原始的道路场景热力图像记为将对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景彩色图像对应的真实语义分割图像处理成9幅独热编码图像，将处理成的9幅独热编码图像构成的集合记为其中，Q为正整数，Q≥500，原始的道路场景彩色图像为RGB图像，原始的道路场景热力图像为灰度图像，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示的宽度，H表示的高度，与为从同一道路场景获取，表示中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建卷积神经网络：该卷积神经网络包括输入层、特征提取层、特征融合层和输出层，输入层由彩色图像输入层和热力图像输入层两部分构成，特征提取层由深层次特征提取模块和浅层次特征提取模块两部分构成，特征融合层由第一上采样层、空间注意力机制模块和空间分辨率恢复模块组成；

对于彩色图像输入层，其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量，其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给深层次特征提取模块；其中，原始RGB图像的宽度为W、高度为H；

对于热力图像输入层，其输入端接收一幅原始热力图像经纬度扩充后形成的三通道热力图像，其输出端输出三通道热力图像给深层次特征提取模块；其中，原始热力图像的宽度为W、高度为H；

对于深层次特征提取模块，其包括第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块，第一彩色结构块的输入端作为深层次特征提取模块的第一输入端接收彩色图像输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量，其输出端输出24幅特征图，将这24幅特征图构成的集合记为D_colour,1，D_colour,1中的每幅特征图的宽度为高度为第一热力图结构块的输入端作为深层次特征提取模块的第二输入端接收热力图像输入层的输出端输出的三通道热力图像，其输出端输出24幅特征图，将这24幅特征图构成的集合记为D_thermal,1，D_thermal,1中的每幅特征图的宽度为高度为对D_colour,1中的每幅特征图与D_thermal,1中对应的特征图执行对应像素点的像素值相加融合操作，共融合得到24幅特征图，将这24幅特征图构成的集合记为D_Add,1，D_Add,1中的每幅特征图的宽度为高度为第二彩色结构块的输入端接收D_Add,1中的所有特征图，其输出端输出32幅特征图，将这32幅特征图构成的集合记为D_colour,2，D_colour,2中的每幅特征图的宽度为高度为第二热力图结构块的输入端接收D_thermal,1中的所有特征图，其输出端输出32幅特征图，将这32幅特征图构成的集合记为D_thermal,2，D_thermal,2中的每幅特征图的宽度为高度为对D_colour,2中的每幅特征图与D_thermal,2中对应的特征图执行对应像素点的像素值相加融合操作，共融合得到32幅特征图，将这32幅特征图构成的集合记为D_Add,2，D_Add,2中的每幅特征图的宽度为高度为第三彩色结构块的输入端接收D_Add,2中的所有特征图，其输出端输出64幅特征图，将这64幅特征图构成的集合记为D_colour,3，D_colour,3中的每幅特征图的宽度为高度为第三热力图结构块的输入端接收D_thermal,2中的所有特征图，其输出端输出64幅特征图，将这64幅特征图构成的集合记为D_thermal,3，D_thermal,3中的每幅特征图的宽度为高度为对D_colour,3中的每幅特征图与D_thermal,3中对应的特征图执行对应像素点的像素值相加融合操作，共融合得到64幅特征图，将这64幅特征图构成的集合记为D_Add,3，D_Add,3中的每幅特征图的宽度为高度为第四彩色结构块的输入端接收D_Add,3中的所有特征图，其输出端作为深层次特征提取模块的输出端输出160幅特征图，将这160幅特征图构成的集合记为D_colour,4，D_colour,4中的每幅特征图的宽度为高度为

对于浅层次特征提取模块，其仅包括一个浅层结构块，浅层结构块的输入端接收D_Add,1中的所有特征图，其输出端输出160幅特征图，将这160幅特征图构成的集合记为S，S中的每幅特征图的宽度为高度为

对于第一上采样层，其输入端接收D_colour,4中的所有特征图，其对D_colour,4中的每幅特征图执行四倍上采样操作，其输出端输出160幅特征图，将这160幅特征图构成的集合记为Y，Y中的每幅特征图的宽度为高度为

对Y中的所有特征图和S中的所有特征图执行拼接操作，得到320幅特征图，将这320幅特征图构成的集合记为C，C中的每幅特征图的宽度为高度为对于空间注意力机制模块，其输入端接收C中的所有特征图，其输出端输出1幅特征图，这幅特征图的宽度为高度为

将空间注意力机制模块的输出端输出的特征图作为空间位置加权图像，利用空间位置加权图像对C中的每幅特征图执行对应像素点的像素值加权操作，共得到320幅特征图，将这320幅特征图构成的集合记为F，F中的每幅特征图的宽度为高度为对于空间分辨率恢复模块，其包括依次连接的第一卷积层、第一批量归一化层、第一激活层、第二上采样层、Dropout层、第二卷积层、第三上采样层，第一激活层的激活函数为“ReLU”，第一卷积层的输入端作为空间分辨率恢复模块的输入端接收F中的所有特征图，第一卷积层的输出端输出160幅特征图，将这160幅特征图构成的集合记为H₁，H₁中的每幅特征图的宽度为高度为第一批量归一化层的输入端接收H₁中的所有特征图，第一批量归一化层的输出端输出160幅特征图，将这160幅特征图构成的集合记为H₂，H₂中的每幅特征图的宽度为高度为第一激活层的输入端接收H₂中的所有特征图，第一激活层的输出端输出160幅特征图，将这160幅特征图构成的集合记为H₃，H₃中的每幅特征图的宽度为高度为第二上采样层的输入端接收H₃中的所有特征图，第二上采样层对H₃中的每幅特征图执行两倍上采样操作，第二上采样层的输出端输出160幅特征图，将这160幅特征图构成的集合记为H₄，H₄中的每幅特征图的宽度为高度为Dropout层的输入端接收H₄中的所有特征图，Dropout层的输出端输出160幅特征图，将这160幅特征图构成的集合记为H₅，H₅中的每幅特征图的宽度为高度为第二卷积层的输入端接收H₅中的所有特征图，第二卷积层的输出端输出9幅特征图，将这9幅特征图构成的集合记为H₆，H₆中的每幅特征图的宽度为高度为第三上采样层的输入端接收H₆中的所有特征图，第三上采样层对H₆中的每幅特征图执行两倍上采样操作，第三上采样层的输出端输出9幅特征图，将这9幅特征图构成的集合记为H₇，H₇中的每幅特征图的宽度为W、高度为H；

对于输出层，其输入端接收H₇中的所有特征图，其输出端输出9幅特征图作为语义分割预测图；

步骤1_3：将训练集中的每幅原始的道路场景彩色图像作为原始RGB图像，并将训练集中的每幅原始的道路场景热力图像作为原始热力图像，将原始RGB图像的R通道分量、G通道分量和B通道分量及相应的原始热力图像经纬度扩充后形成的三通道热力图像输入到卷积神经网络中，使用Adam优化方法进行训练，得到训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图，将对应的9幅语义分割预测图构成的集合记为

步骤1_4：计算训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的9幅独热编码图像构成的集合之间的损失函数值，将与之间的损失函数值记为采用分类交叉熵获得；

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络训练模型，并共得到Q×V个损失函数值；然后将最后一次训练获得的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令表示待语义分割的道路场景彩色图像，令表示待语义分割的道路场景热力图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示的宽度，H'表示的高度，表示中坐标位置为(i',j')的像素点的像素值，表示中坐标位置为(i',j')的像素点的像素值，与为从同一道路场景获取；

步骤2_2：将的R通道分量、G通道分量和B通道分量及经纬度扩充后形成的三通道热力图像输入到训练好的卷积神经网络训练模型中，并利用最优权值矢量和最优偏置项进行预测，预测得到对应的预测语义分割图像。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江科技学院，未经浙江科技学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010793917.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于卷积神经网络的实时道路场景分割方法在审

专利文献下载