[发明专利]一种基于轻量化卷积神经网络的实时图像语义分割方法有效
申请号: | 202011036023.X | 申请日: | 2020-09-27 |
公开(公告)号: | CN112164065B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 刘发贵;唐泉 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V10/26 | 分类号: | G06V10/26;G06V10/52;G06V10/44;G06V10/82;G06V20/70;G06N3/0464;G06N3/084 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 量化 卷积 神经网络 实时 图像 语义 分割 方法 | ||
1.一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,包括以下步骤:
S1、构建轻量化卷积神经网络;
S2、训练构建的轻量化卷积神经网络;
S3、使用训练完成的轻量化神经网络对给定场景中图像进行语义分割。
2.根据权利要求1所述的一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,步骤S1包括以下步骤:
S1.1、构建多尺度处理单元,用于获取像素的多尺度特征;
S1.2、使用构建的多尺度处理单元替换残差网络基本块(Basic block of ResNet)第一个标准3×3卷积,得到金字塔表征模块;
S1.3、按网络结构和参数设置构建轻量化卷积神经网络;第一层为标准3×3卷积,作为初始层将像素特征维度扩展至16;然后连续使用8个金字塔表征模块用于有效编码像素的多尺度特征,捕获长距离像素依赖关系,增强像素特征的区分能力,提升多尺度目标的分割性能;
S1.4、使用双线性差值函数作为上采样算子,恢复分割结果的分辨率使其和输入图像的分辨率相同。
3.根据权利要求2所述的一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,多尺度处理单元包括4个并行卷积层分支,分别为标准1×1卷积,空洞率(dilation rate)为{r1,r2,r3}的3个空洞卷积(dilated convolution);所述空洞卷积同时为深度卷积(depth-wise convolution);多尺度处理单元在通道维度连接4个并行卷积层分支输出,通过一个标准1×1卷积映射后得到输出;多尺度处理单元共2个卷积层。
4.根据权利要求3所述的一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,金字塔表征模块通过使用多尺度处理单元替换残差网络(ResNet18)基本块(Basic Block)的第一个标准3×3卷积得到;所述金字塔表征模块共3个卷积层;所述轻量化卷积神经网络使用参数化修正线性单元(parametric rectifier linearity unit,PReLU)作为激活函数。
5.根据权利要求4所述的一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,所述卷积神经网络共计27个卷积层,网络结构和参数设置如下:
第1层为标准3×3卷积,步长为2,输出通道数为16;第2层~第4层包括一个金字塔表征模块,步长为1,输出通道数为32;第5层~第7层包括一个金字塔表征模块,步长为2,输出通道数为32;第8层~第16层包括三个金字塔表征模块,步长为1,输出通道数为64;第17层~第19层包括一个金字塔表征模块,步长为2,输出通道数为64;第20层~第25层包括两个金字塔表征模块,步长为1,输出通道数为128;第26层、第27层均为分类层,分别包括一个标准3×3卷积和一个1×1卷积;所述神经网络的下采样倍数为8,即输出特征图的分辨率为输入图像的1/8。
6.根据权利要求5所述的一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,第2层~第7层的金字塔表征模块空洞率为{1,2,4};第8层~第19层的金字塔表征模块空洞率为{3,6,9};第20层~第22层的金字塔表征模块空洞率为{7,13,19},第23层~第25层的金字塔表征模块空洞率为{13,25,37}。
7.根据权利要求6所述的一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,步骤S2包括以下步骤:
S2.1、输入训练图像和对应的语义分割标注;
S2.2、使用交叉熵损失函数训练轻量化卷积神经网络的参数,具体如下:
其中,N表示语义类别数目;yi表示像素类别标注,若像素属于类别i,则yi=1,否则yi=0;表示轻量化卷积神经网络的预测输出,即预测像素属于类别i的概率;
S2.3、使用梯度下降法训练轻量化卷积神经网络至收敛。
8.根据权利要求7所述的一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,步骤S3包括以下步骤:
S3.1、输入待分割图像;
S3.2、轻量化卷积神经网络进行前行传播,获取每个像素预测类别的概率分布;
S3.3、选择概率值最大的类别作为轻量化卷积神经网络的预测类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011036023.X/1.html,转载请声明来源钻瓜专利网。