[发明专利]一种基于改进Transformer的黑暗场景三维人体姿态估计算法有效
申请号: | 202110907362.9 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113537393B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 邵叶秦;周昆阳;杨启硕;赵梦婷;泮佳俊;李泽漩;刘江 | 申请(专利权)人: | 南通大学 |
主分类号: | G06T17/00 | 分类号: | G06T17/00;G06N3/0464;G06N3/0455;G06N3/08;G06V10/44;G06T7/20 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 徐激波 |
地址: | 226000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 transformer 黑暗 场景 三维 人体 姿态 估计 算法 | ||
本发明公开了一种基于改进Transformer的黑暗场景三维人体姿态估计算法,包括以下步骤:制作黑暗场景下人体姿态数据集,并进行数据增强;训练二维人体姿态估计模型,并将经过处理后的图像首先进行二维人体姿态估计,得到人体关节点的二维坐标;将得到的二维关节点坐标组成特征序列作为改进Transformer的输入实现三维人体姿态估计;将训练好的模型部署到移动端设备。本发明在黑暗场景下具有准确率较高和实用性较好等优点。
技术领域
本发明涉及深度学习、计算机视觉、三维人体姿态估计。尤其涉及一种基于改进Transformer的黑暗场景三维人体姿态估计算法。
背景技术
人体姿态估计是在计算机视觉领域的基础研究,也是一个热点研究。在医学领域、虚拟现实(VR)、人机交互等领域有着广泛的应用。目前,三维人体姿态估计方法主要有两类:基于传统方法的人体姿态估计和基于深度学习的人体姿态估计。
基于传统方法的人体姿态估计是通过建立人体的模型来描述和推测人体姿态,通过算法来提取姿态特征。例如,《random-forest-based human pose estimation using amulti-scale and cascade approach》一文采用随机森林来判断前景中每个像素点属于身体的哪个部位,并使用随机回归森林来判断人体的所有关节点。《A data-driven approachfor real-time full body pose reconstruction from a depth camera》一文使用数据驱动的模板匹配算法来进行姿态估计,再由算法对姿态进行精确调整。尽管传统方法处理速度快,但由于自身模型的限制,存在着精度不足等问题。而且传统方法容易受光照、遮挡等因素影响,鲁棒性不高。
基于深度学习的三维人体姿态估计主要是通过深度卷积网络提取图像特征,然后再通过特征图得到关节点的位置。例如,《human pose estimation from mono-cularimages with deep convolutional neural network》一文通过训练网络,直接从图像中回归计算三维人体关节位置。《A simple yet effective baseline for 3D human poseestimation》一文以2D人体姿态估计为基础,首先获得2D人体姿态结果,然后通过简单的神经网络将2D姿态回归到3D人体姿态。基于深度学习的三维人体姿态估计相较于传统方法精度有较大的提升,但是特定场景下,如黑暗场景下依旧存在着准确率低,鲁棒性差等问题。
发明内容
本发明的目的是为了解决在黑暗场景条件下三维人体姿态估计准确率较低、鲁棒性较差的问题,提出一种基于改进Transformer的黑暗场景三维人体姿态估计算法。
本发明采用的技术方案为:一种基于改进Transformer的黑暗场景三维人体姿态估计算法,包括如下步骤:
S1、通过摄像头以一定帧率拍摄黑暗场景下的人体姿态,制作黑暗场景下人体姿态数据集,并进行数据增强;
所述数据增强方式包括:随机旋转、随机缩放和随机饱和度调整;所述随即旋转即将图片随机旋转-45度~+45度,随机缩放为将图片随机缩放为原图的 0.7~1.2倍,随机饱和度调整的实施方法为首先设定一个阈值t(本发明中t=0.5),接着在(0,1)内随机选取一个数a,如果,则饱和度调整的比例为a,如果,则在 (-a,a)内随机选取一个数b,饱和度调整的比例为b+1;
S2、训练二维人体姿态估计模型,并将进行数据处理后的图像首先进行二维人体姿态估计,得到人体关节点的二维坐标,具体包括:
S21、采用级联金字塔网络(CPN)进行二维人体姿态估计,并且使用Mask R-CNN进行人体边界框检测,其中Mask R-CNN使用ResNet101作为backbone;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110907362.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高性能的复合型防水材料及其制备方法
- 下一篇:一种货船船舱加强机构
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法