[发明专利]基于全残差空洞卷积神经网络的道路场景语义分割方法有效
申请号: | 201910664797.8 | 申请日: | 2019-07-23 |
公开(公告)号: | CN110490205B | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 周武杰;朱家懿;叶绿;雷景生;王海江;何成 | 申请(专利权)人: | 浙江科技学院 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于全残差空洞卷积神经网络的道路场景语义分割方法,其在训练阶段构建全残差空洞卷积神经网络,其包括输入层、隐藏层和输出层,隐藏层包括1个过渡卷积块、8个神经网络块、7个反卷积块、4个融合层;将训练集中的每幅原始的道路场景图像输入到全残差空洞卷积神经网络中进行训练,得到每幅原始的道路场景图像对应的12幅语义分割预测图;通过计算每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,得到全残差空洞卷积神经网络训练模型;在测试阶段利用全残差空洞卷积神经网络训练模型进行预测;优点是其分割准确度高,且鲁棒性强。 | ||
搜索关键词: | 基于 全残差 空洞 卷积 神经网络 道路 场景 语义 分割 方法 | ||
【主权项】:
1.一种基于全残差空洞卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;/n所述的训练阶段过程的具体步骤为:/n步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为 然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将 处理成的12幅独热编码图像构成的集合记为 其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值, 表示 中坐标位置为(i,j)的像素点的像素值;/n步骤1_2:构建全残差空洞卷积神经网络:全残差空洞卷积神经网络包括输入层、隐藏层和输出层,隐藏层包括1个过渡卷积块、8个神经网络块、7个反卷积块、4个融合层;/n对于输入层,其输入端接收一幅输入图像的R通道分量、G通道分量和B通道分量,其输出端输出输入图像的R通道分量、G通道分量和B通道分量给隐藏层;其中,要求输入层的输入端接收的输入图像的宽度为W、高度为H;/n对于隐藏层,过渡卷积块的输入端为隐藏层的输入端,接收输入层的输出端输出的输入图像的R通道分量、G通道分量和B通道分量,过渡卷积块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为G1;第1个神经网络块的输入端接收G1中的所有特征图,第1个神经网络块的输出端输出128幅宽度为 且高度为 的特征图,将这128幅特征图构成的集合记为S1;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为S2;第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出512幅宽度为 且高度为 的特征图,将这512幅特征图构成的集合记为S3;第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出1024幅宽度为 且高度为 的特征图,将这1024幅特征图构成的集合记为S4;第1个反卷积块的输入端接收S4中的所有特征图,第1个反卷积块的输出端输出512幅宽度为 且高度为 的特征图,将这512幅特征图构成的集合记为F1;第5个神经网络块的输入端接收S3中的所有特征图,第5个神经网络块的输出端输出512幅宽度为 且高度为 的特征图,将这512幅特征图构成的集合记为S5;第1个融合层的输入端接收F1中的所有特征图和S5中的所有特征图,相加融合操作后第1个融合层的输出端输出512幅宽度为 且高度为 的特征图,将这512幅特征图构成的集合记为A1;第2个反卷积块的输入端接收A1中的所有特征图,第2个反卷积块的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为F2;第6个神经网络块的输入端接收S2中的所有特征图,第6个神经网络块的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为S6;第3个反卷积块的输入端接收S3中的所有特征图,第3个反卷积块的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为F3;第2个融合层的输入端接收F2中的所有特征图、S6中的所有特征图和F3中的所有特征图,相加融合操作后第2个融合层的输出端输出256幅宽度为 且高度为 的特征图,将这256幅特征图构成的集合记为A2;第4个反卷积块的输入端接收A2中的所有特征图,第4个反卷积块的输出端输出128幅宽度为 且高度为 的特征图,将这128幅特征图构成的集合记为F4;第7个神经网络块的输入端接收S1中的所有特征图,第7个神经网络块的输出端输出128幅宽度为 且高度为 的特征图,将这128幅特征图构成的集合记为S7;第5个反卷积块的输入端接收S2中的所有特征图,第5个反卷积块的输出端输出128幅宽度为 且高度为 的特征图,将这128幅特征图构成的集合记为F5;第3个融合层的输入端接收F4中的所有特征图、S7中的所有特征图和F5中的所有特征图,相加融合操作后第3个融合层的输出端输出128幅宽度为 且高度为 的特征图,将这128幅特征图构成的集合记为A3;第6个反卷积块的输入端接收A3中的所有特征图,第6个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为F6;第8个神经网络块的输入端接收G1中的所有特征图,第8个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为S8;第7个反卷积块的输入端接收S1中的所有特征图,第7个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为F7;第4个融合层的输入端接收F6中的所有特征图、S8中的所有特征图和F7中的所有特征图,相加融合操作后第4个融合层的输出端输出64幅宽度为W且高度为H的特征图,将这64幅特征图构成的集合记为A4,第4个融合层的输出端为隐藏层的输出端;/n对于输出层,其输入端接收A4中的所有特征图,其输出端输出12幅宽度为W且高度为H的特征图,将这12幅特征图构成的集合记为O1;/n步骤1_3:将训练集中的每幅原始的道路场景图像作为输入图像,输入到全残差空洞卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为 /n步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将 与 之间的损失函数值记为 采用NegativeLog-liklihood函数获得;/n步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到全残差空洞卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为全残差空洞卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;/n所述的测试阶段过程的具体步骤为:/n步骤2_1:令 表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示 的宽度,H'表示 的高度, 表示 中坐标位置为(i,j)的像素点的像素值;/n步骤2_2:将 的R通道分量、G通道分量和B通道分量输入到全残差空洞卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到 对应的预测语义分割图像,记为 其中, 表示 中坐标位置为(i',j')的像素点的像素值。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910664797.8/,转载请声明来源钻瓜专利网。