[发明专利]一种基于深度学习的实时高性能街景图像语义分割方法有效

专利信息
申请号: 201910452356.1 申请日: 2019-05-28
公开(公告)号: CN110188817B 公开(公告)日: 2021-02-26
发明(设计)人: 严严;董根顺;王菡子 申请(专利权)人: 厦门大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/08;G06T7/10
代理公司: 厦门南强之路专利事务所(普通合伙) 35200 代理人: 马应森
地址: 361005 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 实时 性能 街景 图像 语义 分割 方法
【权利要求书】:

1.一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于包括以下步骤:

1)准备街景图像训练、验证和测试数据集;

2)对步骤1)中的数据集图像进行下采样,减小图像的分辨率;

3)对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络;所述现有的轻量级分类网络采用谷歌最新发布的MobilenetV2轻量级分类网络作为改造对象,具有速度快、模型小、精度高特点,MobilenetV2依次由1个3×3的conv2d操作、17个bottleneck操作、1个1×1的conv2d操作、1个7×7的avgpool操作和1个1×1的conv2d操作组成,其中conv2d表示标准的卷积操作,而bottleneck表示由1个1×1的卷积层、一个3×3的逐深度可分离卷积层和一个1×1的卷积层组成的模块,avgpool表示平均池化操作;因为MobilenetV2是一个图像分类网络,不断地减小特征图的分辨率,最后一个bottleneck块输出的特征图尺寸只有原始输入图像的32分之一,网络的最终输出将是一个概率向量;语义分割是一个图像到图像的过程,需要保证网络的最终输出是一个预测图,所以需要对MobilenetV2的网络结构进行修改才能作为的基础特征提取网络;首先将最后一个bottleneck块后面的所有卷积层和池化层去掉,得到只剩下1个3×3的conv2d和17个bottleneck的简化版MobilenetV2;经过上一步修改后的MobilenetV2输出原始输入图像32分之一大小的特征图,为了能够获得更大分辨率的输出特征图,将孔洞卷积和MobilenetV2结合在一起,孔洞卷积的作用就是在加大网络深度的同时不会改变特征图的分辨率,利用孔洞卷积获得更大的感受野面积和得到更加稠密的特征图;尽管孔洞卷积需要比较多的运行时间,但是MobilenetV2是一个极其快速的网络,通过将二者结合做到速度与精度的平衡;所述MobilenetV2和孔洞卷积的结合方式是:简化版MobilenetV2前面部分的网络配置保持不变,当特征图分辨率下降到原始输入图像的8分之一大小后,也就是第6个bottleneck块之后,在后面的每个bottleneck块的逐深度可分离卷积层中加入带有不同孔洞率的孔洞卷积,同时将逐深度可分离卷积层的stride大小设置为1,通过这种结合方式将特征图的分辨率维持在原始输入图像的8分之一大小上;在第7个到第10个、第11个到第13个、第14个到第16个和第17个bottleneck块中分别使用2,4,8和16的孔洞率;经过上述改造后的MobilenetV2最后几层的特征图分辨率都是原始输入图像的8分之一大小;为了进一步提高网络的精度,还利用密集跳层连接将这些网络层的输出特征图按通道连接在一起得到输出特征图;

4)在步骤3)中得到的基础特征提取网络后串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题;

所述鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题的具体方法为:在每一个孔洞卷积核前面添加一个不同尺寸的平均池化层;在原来的1×1标准卷积分支中添加另外1个3×3标准卷积来提高该分支的特征提取能力;图像级全局平均池化分支保持不变;鉴别性孔洞空间金字塔池化由下面5个分支组成:1个1×1和1个3×3的标准卷积;三个池化率为3、5和7的池化层,其后分别跟着孔洞率为12、24和36的3×3孔洞卷积;一个图像级全局平均池化;每个分支前还使用一个Batch Normalization层加速网络的训练,同时每个分支均带有256个通道;然后每个分支的输出按通道拼接在一起得到一个1280维的特征图,再经过1个1×1的卷积层来减少特征图的通道数降低计算量;还使用一个shortcut连接将上述得到的特征图与孔洞空间金字塔池化的输入特征图按照逐点相加的方式连接在一起,shortcut连接有助于信息的流动和重用;

5)将若干个卷积层堆叠,形成一个浅层的空间信息保存网络;

6)使用特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果;

7)将步骤6)的输出图像与数据集中的语义标注图像进行对比,利用反向传播算法进行端到端的训练,得到实时高性能街景图像语义分割网络模型;

8)将待测试的街景图像输入步骤7)的实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910452356.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top