[发明专利]一种基于多任务深度学习的姿态估计与人体解析系统在审

专利信息
申请号: 202010464461.X 申请日: 2020-05-27
公开(公告)号: CN111738091A 公开(公告)日: 2020-10-02
发明(设计)人: 吴渊;金城;袁梓 申请(专利权)人: 复旦大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08
代理公司: 上海正旦专利代理有限公司 31200 代理人: 王洁平
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 任务 深度 学习 姿态 估计 人体 解析 系统
【权利要求书】:

1.一种基于多任务深度学习的姿态估计与人体解析系统,其特征在于,其包括基于姿态特征的人体检测子网和姿态估计与人体解析联合学习子网;其中:

所述基于姿态特征的人体检测子网,将原始的单张多人图像输入得到姿态特征、人体掩码和分割的多张单人图片三类输出结果,然后进行拼接,输入到姿态估计与人体解析的联合学习子网中;

所述姿态估计与人体解析联合学习子网,首先用ResNet-101在基于姿态特征的人体检测子网基础上进一步提取图像特征,得到的ResNet-101第四阶段图像特征用于姿态估计分支的输入,ResNet-101第五阶段特征用于人体解析分支的输入;所述姿态估计分支由一个姿态提取模块和若干个姿态细化模块组成;所述人体解析分支结构和姿态估计分支对称,人体解析分支由解析提取模块和若干个解析细化模块组成;姿态提取模块接收ResNet-101第四阶段图像特征,输出姿态特征与姿态估计结果;解析提取模块接收ResNet-101第五阶段特征,输出解析特征和人体解析结果;姿态提取模块和多阶段的姿态细化模块相连,姿态细化模块的输入由上一阶段的姿态特征与姿态估计结果、人体解析结果三者拼接而成,输出为姿态特征与姿态估计结果;解析提取模块和多阶段的解析细化模块相连,解析细化模块的输入由上一阶段的解析特征与人体解析结果、姿态估计结果三者拼接而成,输出为解析特征和人体解析结果。

2.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,基于姿态特征的人体检测子网由特征提取模块、对齐模块和分割模块组成;其中:

特征提取模块,其采用沙漏网络,首先原始图片通过该特征提取网络输出热力图,对应人体关键点;接着通过确定热力图中的最大值以确定关键点的位置,连接关键点得到粗略的人体姿态;

对齐模块,其先选取若干常见姿态作为标准姿态列表,然后将骨干特征提取网络所提取的人体姿态表示为三维向量列表P,标准姿态列表中的姿态表示为Pj,选择与人体姿态P距离值最低的标准姿态P′,再在确定标准姿态P'后,计算人体姿态P与标准姿态P'的仿射变换矩阵H,人体姿态坐标经仿射变换后尽可能接近标准姿态坐标,最后将单人图像与其人体姿态一起根据仿射变换矩阵H做图像变换,并将变换后图像统一缩放成同一尺寸;

分割模块,其包括依次连接的卷积层、若干个残差单元、上采样单元、残差单元和卷积层;其首先采用卷积层和若干个残差单元为感兴趣区域ROI获取到足够大的感受野,然后基于上采样单元恢复分辨率,最后使用残差单元和卷积层将特征恢复到原图像尺寸得到最终人体掩码。

3.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,姿态估计分支的最终输出为人体关键点热力图,根据热力图可得到人体关键点位置,连接人体关键点形成人体姿态,即人体骨架。

4.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,姿态提取模块用于提取姿态特征并形成粗略人体关键点热力图,姿态提取模块网络层由6层卷积核大小为3*3的卷积层以及2层卷积核大小为1*1的卷积层组成,其前6层3*3卷积用于进一步提取姿态特征,后2层将姿态特征变换为16通道,每通道的特征图对应一个关键点的热力图。

5.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,姿态细化模块网络层包括1层卷积核大小为1*1的卷积层、从卷积核大小为3*3逐步增加到卷积核大小为9*9的增量卷积层以及2层卷积核大小为1*1的卷积层;姿态细化模块首先通过1*1卷积层将上一阶段的输出变换到固定通道的特征图上;然后将姿态特征、变换后的姿态估计结果与解析结果这三个特征图进行拼接得到融合特征图;融合特征图再通过增量卷积层达到逐阶段细化的目标,最后使用两层卷积核大小为1*1的卷积层将姿态特征变换为16通道上产生人体关键点热力图。

6.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,所述解析提取模块和解析细化模块的网络层中包括卷积层和多孔空间金字塔池化ASPP层。

7.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,针对该系统的训练流程如下:

步骤S1,结合LIP与PASCAL-Person两个主流的标准数据集,生成粒度为5的人体解析标签,并命名为LIP-PASCAL-5,用作训练集之一;

步骤S2,搭建基于多任务深度学习的姿态估计与人体解析系统;

步骤S3,将步骤S1中的粒度为5的人体解析标签LIP-PASCAL-5和主流数据集LIP作为训练集输入基于多任务深度学习的姿态估计与人体解析系统进行模型训练;具体步骤如下:

步骤S3-1,读取部分预训练模型,对于预训练模型中没有的模型参数进行随机赋值;

步骤S3-2,将训练集中各个训练图像依次输入构建好的基于多任务深度学习的姿态估计与人体解析系统中并进行一次迭代;

步骤S3-3,迭代后,采用各个阶段的损失函数之和作为姿态估计与人体解析联合子网的总损失函数;总损失函数具有以下的特征:

人体解析的损失函数如公式(1)所示,其中是人体解析网络输出的第i部位的解析结果,是第i部位人体解析真实值,N为解析粒度即人体被分解成身体部位的数量,逐部位累加得到该粒度下的人体解析损失函数;

姿态估计损失函数如公式(2)所示,其中是姿态估计网络输出的第j关键点热力图,是第j关键点热力图的真实值,M是人体关键点数量,每个阶段M都为16,逐关键点累加得到姿态估计损失函数;

每阶段的损失函数为姿态估计分支与人体解析分支损失函数之和,如公式(3)所示,表示联合学习子网中姿态估计任务与人体解析任务的相互影响;总损失函数为所有阶段的损失函数之和,如公式(4)所示,用于所有粒度下保证姿态估计与人体解析预测结果的正确性;

计算得到的损失误差反向传播,从而更新模型参数;

步骤S3-4,重复步骤S3-2和S3-3直至达到训练条件,得到训练好的基于多任务深度学习的姿态估计与人体解析系统。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010464461.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top