[发明专利]实时人体3D姿态估计方法、装置、计算机设备和存储介质在审
申请号: | 202111066712.X | 申请日: | 2021-09-13 |
公开(公告)号: | CN113762177A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 范宇航;唐浩 | 申请(专利权)人: | 成都市谛视科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06T7/80;G06N3/04 |
代理公司: | 成都市集智汇华知识产权代理事务所(普通合伙) 51237 | 代理人: | 罗艳 |
地址: | 610094 四川省成都市中国(四川)自由贸易*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时 人体 姿态 估计 方法 装置 计算机 设备 存储 介质 | ||
1.一种实时人体3D姿态估计方法,其特征在于,包括:
通过n个摄像头同步采集被采集对象的实时动作视频,得到n个摄像头对应的实时原始视频流,其中n个摄像头分别设置在被采集对象的四周且正对被采集对象,n大于或者等于3;
根据n个摄像头预设的内参参数和畸变参数对n个摄像头对应的实时原始视频流进行一对一畸变矫正,得到n个摄像头对应的实时标准视频流;
将n个摄像头对应的实时标准视频流从第k帧视频帧开始,将当前帧和当前帧前的k-1帧共k帧视频帧合成(n,k,w,h,c)张量,输入时序深度神经网络输出(n,p,w,h)张量,得到n个摄像头对应的当前帧关键点热力图,其中n为摄像头数量,k为视频帧帧数,w和h为视频帧的宽和高,c为视频帧通道数,p为人体骨骼关键点个数,k大于2;
将n个摄像头对应的当前帧关键点热力图和n个摄像头预设的外参参数拼接得到热力图总向量[(65536p+12)n,1024],输入姿态回归神经网络输出人体三维总向量[1024,3p],将人体三维总向量转换为人体骨骼向量[p,3],得到人体骨骼p个关键点的3D坐标。
2.根据权利要求1所述的实时人体3D姿态估计方法,其特征在于,所述n个摄像头分别设置在被采集对象的四周且正对被采集对象,包括:以被采集对象所在地面为圆心,每个摄像头正对圆心,其水平偏移角度小于或者等于10度,垂直偏移角度小于或者等于5度,每个摄像头距离地面高度为1.5到3.5米,距离被采集对象距离为2到5米。
3.根据权利要求1所述的实时人体3D姿态估计方法,其特征在于,所述时序深度神经网络包括19层卷积神经网络和1层全连接神经网络,19层卷积神经网络包括2层卷积核为64的卷积层、2层卷积核为128的卷积层、4层卷积核为256的卷积层、8层卷积核为512的卷积层、3层卷积核为1024的卷积层和5个池化层;所述姿态回归神经网络包括3层全连接神经网络,3层全连接神经网络包括1层 [(65536p+12)n,1024]的全连接层,1层[1024,1024]的全连接层和1层[1024,3p]的全连接层。
4.根据权利要求1所述的实时人体3D姿态估计方法,其特征在于,所述时序深度神经网络和姿态回归神经网络的训练方法包括:
将n个摄像头分别设置在实验对象的四周且正对实验对象,将摄像头设置为多种角度和高度,针对每一种摄像头的角度和高度采集实验对象运动的大量连续视频帧并保存,同时动捕设备采集每帧对应的关键点3D空间位置,根据每一种摄像头的角度和高度获取摄像头对应的内参参数、畸变参数和外参参数;
对n个摄像头采集的连续视频数据帧中的每帧视频帧标注人体关键点的二维像素坐标,同时记录每帧视频帧对应的关键点3D空间位置;
构建合成神经网络模型,所述合成神经网络模型包括19层卷积神经网络、1层全连接神经网络和3层全连接神经网络,随机初始化合成神经网络模型的参数;
从每一种摄像头的角度和高度标注后的连续视频数据帧中第k帧开始,取当前帧和当前帧前k-1帧共k帧视频帧合成[n,k,256,256,3]张量输入合成神经网络模型,数据向前运算到19层卷积神经网络结束变成[n,k,8,8,1024]张量T,将张量T变形为一维向量[65535kn]与1层全连接神经网络运算再变形输出为[n,p,256,256]的当前帧关键点热力图,对每一个[256,256]张量计算张量最大值的位置输出[n,p,2]的2D关键点的坐标,将当前帧关键点热力图和n个摄像头对应的外参参数[n,3,4]拼接成长度是(65536p+12)n的一维向量[(65536p+12)n,],将该一维向量继续向前传播到姿态回归神经网络,输出p个关键点的3D坐标;
根据每一个摄像头中人体关键点的2D坐标的均方误差和每一个关键点对应的3D坐标的均方误差,根据反向传播算法回传2D和3D的输出误差之和,通过大量张量迭代训练合成神经网络模型的参数,得到训练好的合成神经网络模型;
将训练好的合成神经网络模型分为时序深度神经网络和姿态回归神经网络两部分,所述时序深度神经网络包括19层卷积神经网络和1层全连接神经网络,所述姿态回归神经网络包括3层全连接神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都市谛视科技有限公司,未经成都市谛视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111066712.X/1.html,转载请声明来源钻瓜专利网。