[发明专利]基于全局-局部RGB-D多模态的手势识别方法有效
申请号: | 201810216977.5 | 申请日: | 2018-03-16 |
公开(公告)号: | CN108388882B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 郑伟诗;李伟宏;李本超 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 全局 局部 rgb 多模态 手势 识别 方法 | ||
1.基于全局-局部RGB-D多模态的手势识别方法,其特征在于,包括下述步骤:
S1、骨骼序列生成及基于骨骼数据的全局-局部手势识别:
给定输入的RGB-D视频图片, 利用多人姿态估计方法估计出每帧图片中人体骨骼的坐标位置,并根据整个视频获得的上半身的骨骼点,利用长短时记忆网络对上半身的骨骼点特征进行时序建模和分类,得到基于全局骨骼的手势分类得分;
S2、基于全局-局部的RGB-D模态手势识别:
对于RGB数据和深度数据的全局手势表示,首先分别将T帧的RGB和T帧深度图在通道沿时间进行堆叠,分别得到堆叠后的RGB图和T帧深度图,并且对VGG16卷积神经网络的输入通道进行改进,使其能够接受对应通道数目的数据输入;通过卷积神经网络的特征提取处理,分别在堆叠的RGB数据和堆叠的深度图获得对应的全局RGB特征和全局深度特征;最后,利用神经网络的非线性分类方法分别获得基于全局的RGB手势分类得分和全局的深度手势分类得分;
S3、基于全局-局部的RGB光流和深度光流模态手势识别;
分别在RGB视频数据和深度视频数据中提取光流信号,从而分别获得RGB光流和深度光流图片数据,光流是一种记录像素运动的方式,其主要记录了每个像素沿时间帧之间的运动方向和强度;
步骤S3中,利用TV-L1光流算法对光流图片进行计算,通过对RGB光流和深度光流的提取,分别获得全局和局部的RGB光流图片和全局和局部的深度光流图片,并且利用VGG16卷积神经网络对其进行分类,最终获得基于全局和局部的RGB光流的手势分类得分和,和基于全局和局部的深度光流的手势分类得分和;
S4、多模态的手势分类得分融合;
在获得骨骼、RGB图、深度图、RGB光流图和深度光流图5种不同的数据模态的全局和局部手势分类得分,,,,,,,,和后,其中,为局部骨骼的手势分类得分,为局部RGB图的手势分类得分,为局部深度图的手势分类得分;基于以上的手势分类得分进行平均,并且利用归一化函数进行类别得分的归一化,最终获得不同手势类别的概率。
2.根据权利要求1所述的基于全局-局部RGB-D多模态的手势识别方法,其特征在于,步骤S1中,还包括下述对手势做进一步的描述的步骤,具体为:
获取手部、肘部和肩部的骨骼点对骨骼数据进行局部描述,同样利用长短时记忆网络对获得的局部骨骼数据进行时序建模和分类,得到基于局部骨骼的手势分类得分。
3.根据权利要求1所述的基于全局-局部RGB-D多模态的手势识别方法,其特征在于,步骤S2中还包括局部RGB特征和局部深度特征的提取方法,具体为:
首先,通过将左右手、左右肘部和左右肩部对应的RGB图和深度图区域裁剪;
其次,将裁剪后的图片拼合成新的图片数据;
最后,根据拼接后得到的RGB图和深度图,同样先通过时间堆叠成多通道图片,再利用VGG16卷积神经网络进行特征提取和分类,最终获得基于局部RGB图和局部深度图的手势分类得分和。
4.根据权利要求1所述的基于全局-局部RGB-D多模态的手势识别方法,其特征在于,步骤S4中,所述归一化函数采用softmax归一化函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810216977.5/1.html,转载请声明来源钻瓜专利网。