[发明专利]一种基于Transformer的人体姿态估计方法及系统有效
申请号: | 202210214320.1 | 申请日: | 2022-03-04 |
公开(公告)号: | CN114550305B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 刘晓平;王冬;谢文军;蔡有城;李鑫杰 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/44;G06K9/62;G06N3/04;G06N3/08;G06V10/774;G06V10/82;G06V10/80 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 高宁馨 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer 人体 姿态 估计 方法 系统 | ||
1.一种基于Transformer的人体姿态估计方法,其特征在于:
包括
特征提取模块,所述特征提取模块用于对输入图像实现局部特征提取,得到初级特征图像;
特征交互模块,所述特征交互模块用于对输入图像实现全局特征交互,得到交互特征图像;
特征恢复模块,所述特征恢复模块用于对交互特征图像进行特征恢复,得到预测特征图像;
将预测特征图像作为预测热图,与真值ground_truth关节点的热图进行计算,得到训练的损失值loss,实现梯度回传,完成特征提取模块、特征交互模块和特征恢复模块的训练;
所述特征提取模块包括残差网络、压缩卷积Con-Red以及姿态注意力机制单元SA;
其中所述残差网络由多个残差Res组成,多个所述残差Res前后串联;
所述残差网络对输入图像特征的宽度W、高度H、通道C进行第一次采样,实现宽度W、高度H的第一次下采样,实现通道C的第一次上采样;
所述压缩卷积Con-Red由两个卷积组成,第一个卷积的卷积核大小为3×3,第二个卷积的卷积核大小为1×1,利用压缩卷积Con-Red接在所述残差网络之后,对第一次采样的图像特征进行第二次采样,实现宽度W、高度H的第二次下采样,实现通道C的第二次上采样;
所述姿态注意力机制单元SA 插入在所述残差网络内,对残差网络内的通道C进行关注;
所述姿态注意力机制单元SA包括转换层、softmax激活层、sigmoid激活层和多个1×1的卷积;
所述残差网络的每个残差Res包含多层卷积,每个残差Res内的第一层卷积C_1后均插入有所述姿态注意力机制单元SA;
姿态注意力机制单元SA获取到每个残差Res内第一个卷积C_1的输出Cr×Hr×Wr,利用两个1×1的卷积分别对输出的通道数Cr下降到为1和1/2Cr,保持特征的高度Hr和宽度Wr不变,得到两个并行处理的管道G_1和管道G_2,管道G_1和管道G_2输出特征分别为1×Hr×Wr和Cr/2×Hr×Wr;
利用转换层分别对两个并行处理的管道G_1和管道G_2进行维度转换,对其中管道G_1的特征维度保持三维,使其特征高度Hr和宽度Wr合成同一维度,得到特征维度为HrWr×1×1;对另外一管道G_2的特征维度由三维转换为二维,并将特征高度和宽度合成同一维度,通道数为1/2Cr,得到特征Cr/2×HrWr;
利用1×1的卷积对管道G_2的特征Cr/2×HrWr进行计算,利用softmax激活层对另一管道G_1的特征HrWr×1×1进行计算,将两者计算的值进行叉乘计算,并经sigmoid激活层输出,得到一个三维特征,该三维特征的通道数与残差网络内第一个卷积的输出的通道数Cr相同,特征的高度和宽度均为1,特征为Cr×1×1;
将所述姿态注意力机制单元SA的输出对每个残差Res内第一个卷积C_1的输出Cr×Hr×Wr进行通道Cr关注,实现对所述残差网络内的特征通道Cr进行关注;提高初级特征图像的特征通道的关注度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210214320.1/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法