[发明专利]基于运动链接空间的对抗性网络估计3D人体姿态的方法有效
申请号: | 201911085729.2 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110826500B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 薛裕明;谢军伟;李根;罗鸣;童同;高钦泉 | 申请(专利权)人: | 福建帝视信息科技有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
地址: | 350002 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 运动 链接 空间 对抗性 网络 估计 人体 姿态 方法 | ||
本发明涉及一种基于运动链接空间的对抗性网络估计3D人体姿态的方法。采用卷积神经网络,从单目设备采集的图像中估计人体关键节点的三维坐标,具体以单目RGB图像作为输入,采用运动链接空间和对抗网络技术,不仅解决了过拟合现象,而且提高了3D人体姿态估计精度和准确性。
技术领域
本发明涉及图像内容理解,尤其涉及一种基于运动链接空间的对抗性网络估计3D人体姿态的方法。
背景技术
当前人工智能技术在图像内容理解,视频增强,语音识别等领域都带来了巨大的突破。尤其是在图像内容理解中,3D人体姿态识别技术在康复医疗、视频监控、高级人机交互等领域具有很高的应用价值。
3D人体姿态估计是指从单目或者多目图像中预测人体姿态三维坐标的技术。3D人体姿态估计大致可分为以下三种方法:
第一种方法是采用数学运算或机器学习的方式,根据多目摄像头之间位置关系和拍摄角度等信息计算空间坐标系,预测其对应的深度图,并可以估计任何一个角度的2D图像。但是,其缺点在于不仅需要多目摄像头采集的图像,而且不能改变采集设备的摆放位置。
第二种方法是仅使用单个采集设备,先从单张图像中直接计算2D人体姿态坐标,其后通过简单的矩阵相乘或轻量级网络学习的方式估计其对应的3D人体姿态。但是,由于缺乏原始图像输入,可能会丢失空间信息,从而导致3D坐标的准确性不高;另外,这种方法仅依赖于2D姿态输入信息,所以其误差会在3D估计过程中会放大。
第三种方法是通过深度学习的方法计算从单目RGB图像到3维坐标的端到端映射关系。与前两种方法相比,这种方法从效率和性能上都具有明显的提升。
虽然3D人体姿态估计取得了一定的进步,但是依然需要额外的采集设备信息和存在深度神经网络极容易出现过拟合现象。
因此,本发明将仅以单目RGB图像作为输入,采用运动链接空间和对抗网络技术,不仅解决了过拟合现象,而且提高了3D人体姿态估计精度和准确性。
发明内容
本发明的目的在于提供一种基于运动链接空间的对抗性网络估计3D人体姿态的方法,该方法采用卷积神经网络,从单目设备采集的图像中估计人体关键节点的三维坐标,提高了3D人体姿态估计精度和准确性。
为实现上述目的,本发明的技术方案是:一种基于运动链接空间的对抗性网络估计3D人体姿态的方法,包括如下步骤:
步骤S1、采用单目设备采集人体彩色图像I,其后进行图像归一化,并且利用2D和3D人体数据集进行标注,分别获取2D人体骨骼坐标P和3D人体骨骼坐标M∈R3×n;采用原始图像和人体骨骼坐标进行镜像和裁剪,进行图像数据增广;
步骤S2、3D人体骨骼坐标生成网络:采用弱监督的生成对抗网络学习解决数据过拟合的问题,其中特征提取阶段采用如下计算公式:
F=R(BN(W1*Ig+B1)) (1)
式中,R表示非线性激活函数LeakyRelu,W1,B1分别表示特征提取阶段中卷积层的权重和偏置,BN表示归一化函数,Ig表示输入图片,F表示特征提取阶段得到的输出结果;之后,再经过卷积块、重塑模块,以及再分别经过两个全连接层,即得到对应的3D人体骨骼坐标;
步骤S3、采用卷积神经网络估计摄像头坐标参数K∈R2×3,以辅助反向投影层;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建帝视信息科技有限公司,未经福建帝视信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911085729.2/2.html,转载请声明来源钻瓜专利网。