[发明专利]一种基于聚集激励上下文金字塔的人像语义解析方法在审
申请号: | 202011415482.9 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112396063A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 鲍虎军;李特;操晓春;张三义;任文琦 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 聚集 激励 上下文 金字塔 人像 语义 解析 方法 | ||
本发明公开了一种聚集激励上下文金字塔的人像语义解析方法,该方法中采用由多个并行的不同空间幅度比率聚集激励单元组成聚集激励上下文金字塔模块对编码模块提取高级语义特征捕捉丰富的多尺度上下文信息。再将得到的高层语义上下文特征与编码模块中的输出特征相结合通过解码模块得到初步人像语义解析结果。最后,检测输入人像图片的边缘信息并与初步人像语义解析结果融合进一步改善得到最终的人像语义解析结果。同时引入深度辅助损失分支,辅助获取更佳的效果。本发明采用聚集激励上下文金字塔人像语义解析方法,相比于其他当前先进的人像语义解析算法,构建的模型是轻量的,但拥有很高的分割性能。
技术领域
本发明属于计算机视觉人像语义分割领域,特别涉及一种基于聚集激励上下文金字塔的人像语义解析方法。
背景技术
人像语义解析是一种细粒度的图像语义分割任务,它的目标是对一张人像图片中的每个像素都预测一个细粒度的语义类别标签。人像语义解析的一般流程包括编码和解码两个模块,编码模块负责对输入的人像图片提取高级语义特征,解码模块负责将提取到的高级语义特征上采样到原图的维度,从而得到原图每个像素的人像分类解析结果。
目前常见的人像语义解析算法主要分为两个阶段,第一个阶段是主要处理小规模的受限人像图像数据,包括parselets、ATR(Active Template Regression)、M-CNN(Matching Convolutional Neural Network)、Co-CNN(Contextualized ConvolutionalNeural Network)、 LG-LSTM (Local-Global Long Short-Term Memory)、Graph LongShort-Term Memory (Graph LSTM)、TGPNet (Trusted Guidance Pyramid Network)等。第二个阶段是处理大规模无约束的人像图像数据,包括JPPNet (Joint human Parsing andPose estimation Network)、MMAN (Macro-Micro Adversarial Network)、MuLA (MutualLearning to Adapt model)、CE2P (Context Embedding with Edge Perceiving)等。当前空间池化金字塔 (Pyramid Spatial Pooling, PSP)模块在人像语义解析任务中已经取得非常好的效果,但是空间池化金字塔模块中的平均池化(Average-Pooling)基本单元不能很好地探索与任务相关的上下文信息(参考Ting Liu, Tao Ruan, Zilong Huang,Yunchao Wei, Shikui Wei, Yao Zhao, and Thomas Huang. Devil in the details:Towards accurate single and multiple human parsing[C]. In Proc. AAAI, 2019)。平均池化单元将一个局部区域内所有空间特征都看成是等价的,但是在人像语义解析任务中,一个局部区域内通常包括多个人像语义类别,比如一个局部区域可能包括裤子、左腿、袜子、左鞋和背景,直接采用平均池化会混淆不同人像语义类别的贡献,因此探索一种能够自适应地聚合来自不同人像语义类别的空间位置线索对人像语义解析问题有很大的帮助。聚集-激励(Gather-Excite, GE)操作是一个可学的轻量级单元,聚集操作采用一个或多个可学深度可分离卷积自适应地学习每个空间位置对应的相关人像语义部件的贡献,激励操作将聚集操作获得的空间响应上采样得到与输入特征同样大小的掩码,获取的掩码跟输入特征融合得到新的特征表达。
人像语义解析问题中另一个大的挑战是存在着多个不同尺度和易混淆的类别问题,比如手套、鞋通常都比较小,连衣裙很容易跟上衣或者裙子混淆,左鞋和右鞋也容易混淆,因此探索有效的全局和局部上下文信息对提升人像语义分割性能具有现实意义。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011415482.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于起重机械的双吊钩式滑移装置
- 下一篇:一种露天施工环境天气监测系统