[发明专利]基于单个RGB图像的三维手势识别方法与系统在审
申请号: | 202210615104.8 | 申请日: | 2022-06-01 |
公开(公告)号: | CN114973413A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 徐晓华;许亭亭;何萍;夏应玺;叶进 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06V10/46;G06V10/26;G06N3/08;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 孟红梅 |
地址: | 225009 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 单个 rgb 图像 三维 手势 识别 方法 系统 | ||
1.基于单个RGB图像的三维手势识别方法,其特征在于,包括如下步骤:
(1)将单个RGB图像输入手部分割网络,生成只包含手的手部掩膜,并将原始的RGB图像利用手部掩膜裁剪出只包含手的手部图像;
(2)利用残差网络ResNet-50提取裁剪的手部图像的特征;
(3)利用二维关键点检测网络对手的关键点位置进行细化;所述二维关键点检测网络采用序列化结构,分为多个阶段不断缩小关键点检测范围,采用置信度图的方式表示手的关键点结果,后一阶段直接在前一阶段的置信度图操作,输出越来越精细化的手的关键点位置;后一阶段的输入为前一阶段的输出和残差网络提取的手部图像的特征;
(4)基于二维关键点重构三维关键点,得到三维手势;重构过程中先求出手腕关键点的绝对深度值,再利用与手腕关键点的相对坐标进行三维关键点定位;其中手腕关键点的绝对深度值αx,αy,Areal和Aimg分别为焦距乘以x和y轴的像素距离因子、手在真实空间和图像空间的面积。
2.根据权利要求1所述的基于单个RGB图像的三维手势识别方法,其特征在于,所述二维关键点检测网络中,在图像每个位置z=(u,v),第p个关键点在阶段t的所有置信度分数为表示为:
其中,w和h分别为图像的宽和高,t∈{1,...,T}表示T个阶段,p(x,y)表示第p个关键点位置的坐标,是在第t阶段中判定第p个关键点在图像位置z时的置信度分数;
将所有关键点的置信度集合记为在t>1的阶段,分类器基于两种输入来预测关键点位置的置信度,一是图像特征,二是前一阶段分类器输出上下文内容信息;每个阶段计算置信度对每个关键点的估计越来越精细化,后续阶段所用到的图像特征与第一阶段所用到图像特征是不同的。
3.根据权利要求1所述的基于单个RGB图像的三维手势识别方法,其特征在于,
设P为三维空间任意一点P(X,Y,Z),p为空间点P在图像平面上的投影p(x,y);二维关键点重构三维关键点表示为:
其中,f为焦聚,Zroot是手腕关键点的绝对深度,Zr是第p个关键点相对于手腕关键点的深度。
4.根据权利要求1所述的基于单个RGB图像的三维手势识别方法,其特征在于,所述手部分割网络将输入的图像经过多层卷积加池化操作,每次池化后的卷积操作的卷积核通道数都变为原来的2倍以弥补池化损失的特征;输出图像只包含手的图像,最后进行上采样,生成手部掩膜。
5.根据权利要求1所述的基于单个RGB图像的三维手势识别方法,其特征在于,所述ResNet-50输出特征图大小为46×46×512,二维关键点检测网络在第一个阶段的输入通道数为512,通过一系列卷积操作输出图像大小为46×46×21;一系列卷积操作指的是7个卷积层,包括5个卷积核大小都为7×7,步长为1,填充为3,通道数为128的卷积层和1个卷积核大小为1×1,步长为1,填充为0,通道数为128的卷积层以及1个卷积核大小为1×1,步长为1,填充为0,通道数为21的卷积层;在第二阶段之前,将第一阶段的输出46×46×21和经过ResNet-50的特征图46×46×512进行拼接,输出通道数为533,弥补损失的特征信息;在第二阶段的输入为46×46×533,重复第一阶段的过程,以此类推,输出越来越精细化的手势关键点位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210615104.8/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序