[发明专利]一种基于注意力机制的轻量级网络实时语义分割方法在审
申请号: | 202011235609.9 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112330681A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 杨金福;王康;李明爱;袁帅 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06T7/10 | 分类号: | G06T7/10 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 轻量级 网络 实时 语义 分割 方法 | ||
1.一种基于注意力机制的轻量级网络实时语义分割方法,其特征在于,通过在编码器中利用轻量化模块-可分离非对称模块(SAM),降低模型参数,在解码器中利用注意力机制联合编码器信息,恢复图像丢失的细节信息,提高分割精度,具体包括以下步骤:
步骤1:准备图像数据集用于训练和测试;
步骤2:构建基于注意力机制的轻量级实时语义分割网络;
步骤3:训练轻量级实时语义分割网络:将训练集图像输入到轻量级实时语义分割网络中,得到预测图像,将其与数据集中的语义标签图像进行对比,计算出交叉熵函数作为损失函数,利用随机梯度下降法作为参数优化算法更新模型参数,获得训练好的轻量级实时语义分割模型;
步骤4:将测试集图像输入到训练好的轻量级实时语义分割模型中,得到图像语义分割结果。
2.根据权利要求1所述的一种利用注意力机制联合编解码信息的实时语义分割方法,其特征在于,步骤2中,所述基于注意力机制的轻量级实时语义分割网络采用非对称编码-解码结构,将网络分为4个阶段,其中前三个阶段为编码器,第四个阶段为解码器;阶段1负责提取低级特征,阶段2和阶段3负责提取更大范围的上下文信息,阶段4负责将编码后的特征图恢复到原始图像尺寸;
具体来说,阶段1的工作过程具体为:先将图像输入到阶段1中,阶段1所述网络的前三层使用标准3×3卷积进行特征提取,随后经过平行下采样模块PDM将特征图尺寸缩小为原来的1/4,其中,所述平行下采样模块PDM结构由一个2×2的最大池化和一个3×3卷积Concat后形成,其中3×3卷积用于增加感受野,最大池化操作用于提高分割效率;
阶段2的工作过程具体为:阶段1得到的特征图依次经过3个带有空洞率为2的可分离非对称模块SAM,提取到特征的上下文信息,然后将阶段1的输出和第三个SAM的输出进行连接操作C,接下来,利用平行下采样模块PDM降低连接操作后的特征图尺寸,减少参数量,其中,所述可分离非对称模块SAM结构工作过程为,首先将输入进行3×3卷积,然后将得到的特征图分别输入左、右分支,其中,左分支依次包含一个3×1和一个1×3的非对称深度卷积,用于提取图像特征,右分支依次包含一个3×1和一个1×3的深度空洞卷积,用于增加特征图感受野,两路分支经过相加Add之后再经过一个1×1卷积来恢复通道数,最后将相加后的结果与可分离非对称模块SAM对应的输入相加Add组成残差连接;
阶段3的工作过程具体为:将阶段2得到的特征图输入到阶段3中,阶段3依次包含6个可分离非对称模块SAM,空洞率分别为4,4,8,8,16,16,用于提取特征图不同尺度的上下文信息,最后将阶段2的输出和第6个SAM的输出进行连接操作C,得到编码后的特征图;
阶段4工作过程具体为:第三阶段得到的编码后的特征图首先经过1×1卷积减少通道数,然后经过2倍上采样得到图像的高级特征,接下来与第一阶段得到的低级特征进行连接操作C得到原始特征Fn,利用注意力特征融合模块AFFM完成对原始特征Fn的重新选择和组合,最后利用1×1卷积和4倍上采样,恢复到图像原始尺寸;
其中,注意力特征融合模块AFFM的工作过程具体为:利用全局池化将原始特征Fn转化为特征向量,并依次经过1×1卷积、Relu激活函数、1×1卷积、Sigmoid激活函数,得到权重向量V,接下来,将权值向量V与原始特征Fn相乘得到更新后的特征图,最后,更新后的特征图与原始特征图Fn逐点相加,完成对特征的重新选择和组合,其中,权值向量V的计算公式如下:
V=σ[W2δ[W1(GFn)]]
其中Fn为连接后的特征图,G是全局池化操作,W1和W2为全连接操作,σ为Sigmoid激活函数,δ为Relu激活函数。
3.根据权利要求1所述的一种基于注意力机制的轻量级实时语义分割方法,其特征在于,所述步骤3中的网络训练过程具体包括:
步骤3.1:将训练集中的图像进行预处理和数据增强,具体来说,对训练集中的图像进行水平翻转、随机裁剪、随机缩放尺度来扩充数据集,其中随机缩放尺度范围为0.5到2倍之间;
步骤3.2:初始化参数,将一次训练样本数量设为8,权重衰减值设为0.0001,初始学习率设为0.045,动量系数设为0.9;
步骤3.3:将训练集中经过预处理和数据增强处理后的的图像输入到轻量级实时语义分割网络中,得到预测结果,然后,计算预测结果与训练集中图像标签值的交叉熵损失函数值:
其中为模型预测值,y为预测特征图对应的语义标签值;
步骤3.4:使用随机梯度下降法和多项式学习策略优化损失函数,其中多项式学习策略中的学习率lr被设置为:
其中baselr为初始学习率,iter为当前迭代次数,total_iter为总迭代次数,power为多项式的幂。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011235609.9/1.html,转载请声明来源钻瓜专利网。