[发明专利]一种基于聚集激励上下文金字塔的人像语义解析方法在审
申请号: | 202011415482.9 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112396063A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 鲍虎军;李特;操晓春;张三义;任文琦 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 聚集 激励 上下文 金字塔 人像 语义 解析 方法 | ||
1.一种基于聚集激励上下文金字塔的人像语义解析方法,其特征在于,包括如下步骤:
(1)通过编码模块对输入人像图片逐级缩小特征尺度,提取高级语义特征;其中,最后一级输出的高级语义特征尺度为输入人像图像的1/16;
(2)将步骤(1)中得到的高级语义特征输入至聚集激励上下文金字塔模块中,所述聚集激励上下文金字塔模块包括多个不同空间幅度比率的聚集-激励单元GE_e和标准的卷积单元;其中,e表示空间幅度比率,所述聚集-激励单元GE_e包括聚集操作G_e和激励操作E_e两部分,聚集操作G_e输出的宽和高大小分别是输入宽和高的;激励操作E_e用于将聚集操作G_e的输出上采样操作放大恢复宽和高;多个不同空间幅度比率的聚集-激励单元GE_e和一个标准的卷积单元并行对高级语义特征提取不同尺度的上下文特征,输出串联后得到丰富的多尺度上下文信息;
(3)将步骤(2)中得到的多尺度上下文信息与步骤(1)中特征尺度为输入人像图像1/4的输出特征相结合通过解码模块得到初步人像语义解析结果;
(4)对步骤(1)中,特征尺度分别为输入人像图像1/4、1/8和1/16的输出特征采用1×1、256通道的卷积和一个3×3、卷积核数目为2的卷积分别作用获取边缘信息,上采样后和步骤(3)中得到的初步人像语义解析结果串联,经过两个1×1的标准卷积得到最终的人像语义分割结果。
2.如权利要求1所述的基于聚集激励上下文金字塔的人像语义解析方法,其特征是,所述步骤(1)中,编码模块采用ResNet-101网络作为骨架网络,其中包括5个卷积块,每个卷积块的输出大小依次为输入人像图像的1/4、1/4、1/8、1/16和1/16。
3.如权利要求1所述的基于聚集激励上下文金字塔的人像语义解析方法,其特征是,所述步骤(2)中,所述聚集操作G_e具体为:对聚集激励上下文金字塔模块的输入特征经过[log2e]个3×3且步长为2的深度可分离卷积、批量标准化和修正线性单元得到大小为的输出特征;所述激励操作E_e具体为:对聚集操作的输出特征首先经过双线性上采样和sigmoid激活,再与输入特征进行点对点相乘得到一个大小为C×H×W的输出特征。
4.如权利要求3所述的基于聚集激励上下文金字塔的人像语义解析方法,其特征是,所述深度可分离卷积通过增加外边距填充来满足获得期望的输出大小。
5.如权利要求1所述的基于聚集激励上下文金字塔的人像语义解析方法,其特征是,所述步骤(4)中,获取边缘信息的分支采用带权重的交叉熵损失函数进行训练,其中,对步骤(1)中,特征尺度分别为训练集输入人像图像的1/4、1/8和1/16的输出特征采用1×1的256通道的卷积和一个3×3卷积核数目为2的卷积分别作用,再将三个2通道的结果串联,经过一个1×1卷积核数目为2的卷积得到最终的边缘预测结果作为网络输出值。
6.如权利要求1所述的基于聚集激励上下文金字塔的人像语义解析方法,其特征是,将编码模块倒数第二层的输出特征输入至深度辅助损失分支用于预测人像语义分割结果。
7.如权利要求6所述的基于聚集激励上下文金字塔的人像语义解析方法,其特征是,所述深度辅助损失分支采用带权重的交叉熵损失函数进行训练,权重为0.4。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011415482.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于起重机械的双吊钩式滑移装置
- 下一篇:一种露天施工环境天气监测系统