[发明专利]一种基于图注意力时空卷积的3D姿态估计方法在审
申请号: | 202110811915.0 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113538581A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 吴渊;郑泉石;金城;程乐超 | 申请(专利权)人: | 之江实验室;复旦大学 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06T7/11;G06T19/00;G06N3/04;G06N3/08 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 王洁平 |
地址: | 311121 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 时空 卷积 姿态 估计 方法 | ||
1.一种基于图注意力时空卷积的3D姿态估计方法,其特征在于,其基于包括前处理模块、切割图注意力时空卷积模块、补全图注意力时空卷积模块和后处理模块4部分的系统完成3D姿态估计;具体步骤如下:
(1)前处理模块对2D骨架序列做初步的时域信息抽取,包含卷积层和padding层,模块的输入是二维骨架序列INP-1,形状为(27,17,2),处理过程如下:
INP-1经过卷积核大小为3*1的卷积层处理,得到形状是(25,17,128)的骨架序列
步骤中结果输入补全层,复制骨架序列首尾骨架各一次,输出骨架序列PAD-1,形状为(27,17,128);
(2)切割图注意力时空卷积模块提取骨架序列的时空域信息,该模块包含2个STGCN-S子模块STGCN-S-1,STGCN-S-2; 其中:
STGCN-S-1子模块由切割层、空洞卷积层以及Graph Attention Block组成,该子模块输入是PAD-1,处理过程如下:
对于PAD-1,采用Graph Attention Block进行处理,得到形状为(27,17,256)的骨架序列GA-1;
将GA-1输入分割层,去除骨架序列首尾各3个骨架,得到形状为(21,17,256)的输出SL-1;
将GA-1输入空洞卷积层,进行卷积核为3*1,空洞率为3的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(21,17,256)的输出;
对步骤的输出进行卷积核为1*1,空洞率为1的空洞卷积,结果经过BatchNorm2D、Relu层、Dropout层处理,得到空洞卷积层的输出DCONV-1,形状为(21,17,256);
将SL-1与DCONV-1相加,得到子模块最终输出S-1,形状为(21,17,256);
STGCN-S-2子模块由切割层、空洞卷积层以及Graph Attention Block组成,该子模块输入是S-1, 处理过程如下:
对于S-1,采用Graph Attention Block进行处理,得到形状为(21,17,512)的骨架序列GA-2;
将GA-2输入分割层,去除骨架序列首尾各9个骨架,得到输出SL-2,其形状为(3,17,512) ;
将GA-2输入空洞卷积层,进行卷积核为3*1,空洞率为9的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(3,17,512)的输出;
对步骤的输出进行卷积核为1*1,空洞率为1的卷积,结果经过BatchNorm 2D、Relu层、Dropout层处理,得到空洞卷积层的输出DCONV-2,形状为(3,17,512);
将SL-2与DCONV-2相加,得到子模块最终输出S-2,形状为(3,17,512);
(3)补全注意力时空卷积模块进一步提取骨架序列时空域信息,该模块由3个STGCN-P子模块,2个上采样层组成;3个STGCN-P子模块分别为STGCN-P-1子模块、STGCN-P-2子模块STGCN-P-3子模块,2个上采样层分别为上采样层-1子模块、上采样层-2子模块;其中:
STGCN-P-1子模块由卷积层、补全层、空洞卷积层以及Graph Attention Block组成,该子模块输入是S-2,处理过程如下:
对于输入S-2,采用Graph Attention Block进行处理,得到骨架序列GA-3,其形状为(3,17,1024);
将GA-3输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-3,形状为(3,17,256);
将GA-3输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(1,17,256)的输出;
将步骤的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(3,17,256)的结果;
对步骤的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm 2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-4,形状为(3,17,256);
将DCONV-4与CONV-3相加,得到子模块最终输出P-1,形状为(3,17,256);
上采样层通过复制骨架序列首尾的骨架,增加骨架序列的长度;上采样层-1子模块的输入是P-1,处理过程如下:
将P-1输入补全层,复制序列首尾的骨架各9次,得到补全输出,形状为(21,17,256);
将步骤(1)结果与S-1相加,得到子模块最终输出UPSAMP-1,形状为(21,17,256);
STGCN-P-2子模块由卷积层、补全层、空洞卷积层以及Graph Attention Block组成,该子模块输入是UPSAMP-1, 处理过程如下:
对于输入UPSAMP-1,采用Graph Attention Block进行处理,得到骨架序列GA-4,形状为(21,17,512);
将GA-4输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-5,形状为(21,17,128);
将GA-4输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(19,17,128)的输出;
将步骤的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(21,17,128)的结果;
对步骤的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm 2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-6,形状为(21,17,128);
将DCONV-6与CONV-5相加,得到子模块最终输出P-2,形状为(21,17,128);
上采样层-2子模块的输入是P-2,处理过程如下:
将P-2输入补全层,复制序列首尾的骨架各3次,得到补全输出,形状为(27,17,128);
将步骤(1)结果与PAD-1相加,得到子模块最终输出UPSAMP-2,形状为(27,17,128);
STGCN-P-3子模块由卷积层、补全层、空洞卷积层以及Graph Attention Block组成,子模块输入是UPSAMP-2, 处理过程如下:
对于输入UPSAMP-2,采用Graph Attention Block进行处理,得到骨架序列GA-5,形状为(27,17,256) ;
将GA-5输入卷积层,通过卷积核大小为1*1的卷积,得到卷积结果CONV-7,形状为(27,17,3) ;
将GA-5输入空洞卷积层,进行卷积核为3*1,空洞率为1的空洞卷积,结果经过BatchNorm 2D与Relu层处理,得到形状为(25,17,3)的输出;
将步骤的输出输入补全层,复制骨架序列首尾的骨架各一次,输出形状为(27,17,3)的结果;
对步骤的输出,进行卷积核为1*1,空洞率为1的卷积,随后经过BatchNorm 2D、Relu层、Dropout层的处理,得到空洞卷积层的输出DCONV-8,形状为(27,17,3) ;
将DCONV-8与CONV-7相加,得到子模块最终输出P-3,形状为(27,17,3) ;
(4)后处理模块分为两个部分,第一个部分挑选P-3中间位置的骨架,输出是S-3,形状为(1,17,3),第二个部分使用Pose Refinement,输入经过以下步骤处理:
对于INP-1,通过计算输出2维UV坐标,形状为(1,17,2);
将S-3与步骤的结果进行拼接,结果是INP-2,形状为(1,17,5);
INP-2经过Pose Refinement后得到最终的3D姿态估计结果,形状为(1,17,3),代表17个关键点的3D坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;复旦大学,未经之江实验室;复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110811915.0/1.html,转载请声明来源钻瓜专利网。