[发明专利]一种基于改进Transformer的黑暗场景三维人体姿态估计算法有效
申请号: | 202110907362.9 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113537393B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 邵叶秦;周昆阳;杨启硕;赵梦婷;泮佳俊;李泽漩;刘江 | 申请(专利权)人: | 南通大学 |
主分类号: | G06T17/00 | 分类号: | G06T17/00;G06N3/0464;G06N3/0455;G06N3/08;G06V10/44;G06T7/20 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 徐激波 |
地址: | 226000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 transformer 黑暗 场景 三维 人体 姿态 估计 算法 | ||
1.一种基于改进Transformer的黑暗场景三维人体姿态估计算法,其特征在于:包括如下步骤:
S1、通过摄像头拍摄黑暗场景场景下的人体姿态,制作黑暗场景下人体姿态数据集,并进行数据增强;
S2、训练二维人体姿态估计模型,并将进行数据处理后的图像首先进行二维人体姿态估计,得到人体关节点的二维坐标;
S3、训练改进Transformer模型,将所有人体关节点的二维坐标组成一个特征序列输入到改进Transformer中实现三维人体姿态估计,得到人体关节点的三维坐标;
所述S3中通过可切换时域空洞网络、姿态图卷积对Transformer进行改进并在Human3.6M数据集上训练改进后的Transformer模型,具体包括:
S31、可切换时域空洞网络结构:输入可切换时域空洞网络的特征序列大小为(243,34),输入特征序列经过一个卷积核大小为3、空洞率为1、输出通道数为544的1D卷积,然后特征经过B个具有残差结构的Block;每一个Block首先经过一个卷积核大小为3、空洞率为3C,C∈[1,B],的1维可切换时域空洞卷积,之后特征序列经过一个卷积核大小为1,空洞率为1的1D卷积;每一个卷积后面都有一组1维的批量归一化层、ReLU激活函数以及Dropout层;
S32、可切换时域空洞卷积:输入可切换时域空洞卷积的特征序列大小为(H,544),其中H表示H帧图像,544表示通道数,输入特征序列首先分别经过卷积核大小为3步长为1空洞率为3C的时域空洞卷积、卷积核大小为S空洞率为1的标准卷积以及自注意力;经过自注意力的特征序列大小为H×H,之后经过平均池化特征大小变为(H,1),再经过卷积核大小为1的1D卷积和Softmax得到转换因子M;M与经过卷积核大小为3的时域空洞卷积进行特征提取后的特征序列相乘得到特征序列K2,而(1-M)与卷积核大小为S的标准卷积进行特征提取得到的特征序列相乘得到特征序列K1;
S33、图自注意力机制:机制中的Q先经过姿态图卷积聚合特征序列中关节点的局部特征信息,然后与K进行矩阵相乘,再经过Softmax得到权重矩阵,最后和V相乘得到图自注意力机制的输出;
S34、人体关节点的关系包括人体关节点邻接关系、人体关节点对称关系、人体关节点运动关联关系;
S35、所述人体关节点运动关联关系共有四类:左手腕连接右脚踝、左手肘连接右膝盖、右手腕连接左脚踝、右手肘连接左膝盖;
S36、模型损失由两个部分组成,一个部分是三维坐标差:M=17,ρi为模型预测的第i关节点的三维坐标,表示第i个关节点三维坐标的真实值;另一部分是人身体对称部分骨骼长度差:人体对称部分骨骼差含义是人体右手腕和右手肘的长度与人体左手腕与左手肘的长度相同,即二者理想差值应该为0,其中UC表示左边第C个骨骼长度,表示右边第C个骨骼长度;C∈[1,6],损失函数表达式如下:
L=λ1×LP+λ2×LG
其中,λ1和λ2,为各自系数,λ1=2,λ2=1;
S37、以上改进为基础,搭建改进Transformer模型;模型超参数设置:选择Amsgrad优化器,共训练80个epoch,学习率采用指数衰减策略,初始学习率为0.001;
S4、将训练好的模型部署到移动端设备上,完成黑暗场景下三维人体姿态估计。
2.根据权利要求1所述的一种基于改进Transformer的黑暗场景三维人体姿态估计算法,其特征在于:所述S1中数据增强方式包括:随机旋转、随机缩放和随机饱和度调整;所述随机旋转即将图片随机旋转-45度~+45度,随机缩放为将图片随机缩放为原图的0.7~1.2倍,随机饱和度调整的实施方法为首先设定一个阈值t,接着在(0,1)内随机选取一个数a,如果,则饱和度调整的比例为a,如果,则在(-a,a)内随机选取一个数b,饱和度调整的比例为b+1。
3.根据权利要求1所述的一种基于改进Transformer的黑暗场景三维人体姿态估计算法,其特征在于:所述S2具体包括:
S21、采用级联金字塔网络进行二维人体姿态估计,并且使用Mask R-CNN进行人体边界框检测,其中Mask R-CNN使用ResNet101作为backbone;
S22、在S21搭建完毕的模型的基础上,CPN选择ResNet50作为backbone,输入图片大小为384×288;
S23、重新初始化网络最后一层,使得人体关节点热图回归到Human3.6M数据集所对应的二维关节点;
S24、训练好级联金字塔网络模型后,将S1中数据增强后的图片输入到级联金字塔网络中进行二维人体姿态估计,得到二维人体关节点坐标;
上述训练过程中模型超参数设定为:迭代100000次,选择Adam优化器,单批次训练样本数量为16,学习率使用逐步衰减的策略,初始学习率为0.0005,每20000轮衰减一次,衰减率为0.1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110907362.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高性能的复合型防水材料及其制备方法
- 下一篇:一种货船船舱加强机构
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法