[发明专利]基于全局-局部RGB-D多模态的手势识别方法有效
申请号: | 201810216977.5 | 申请日: | 2018-03-16 |
公开(公告)号: | CN108388882B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 郑伟诗;李伟宏;李本超 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 全局 局部 rgb 多模态 手势 识别 方法 | ||
本发明公开了一种基于全局‑局部RGB‑D多模态的手势识别方法,本发明主要通过包括骨骼位置、RGB图像、深度图像和光流图像等数据模态对输入的手势视频进行表示,得到多模态的手势数据表示后,利用卷积神经网络和递归神经网络的方法把不同模态的手势数据分别进行特征表达,并且利用不同模态下得到的特征进行手势的分类。最终将不同模态下得到的不同类别的手势得分进行融合,得到最终基于多模态的手势分类结果。本发明可以应用于客户端或云端对用户输入的手势视频进行识别,通过手势的输入使计算机或手机软硬件做出对应的响应。
技术领域
本发明涉及手势识别的技术领域,尤其是涉及一种基于全局-局部RGB-D多模态的手势识别方法。
背景技术
随着科技的发展,手势识别技术被运用得越来越广泛,现有的技术发明主要是通过RGB摄像头或RGB-D摄像头获得手势视频,根据RGB的单个模态或者RGB-D两个模态进行手势识别。但是现有技术也存在着诸多的缺点,主要缺点是单靠RGB和RGB-D的输入数据对手势视频进行全局的描述。然而基于全局描述的方法在手势识别问题上准确率远远没达到要求,并且目前没有很好的针对手势进行RGB-D特征提取的方法。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于全局-局部RGB-D多模态的手势识别方法,本发明通过多模态特征全局描述和局部描述的结合,有效地提升了手势识别的准确率,使之能够在现实生活场景中进行一定程度的应用。
为了达到上述目的,本发明采用以下技术发明:
本发明基于全局-局部RGB-D多模态的手势识别方法,包括下述步骤:
S1、骨骼序列生成及基于骨骼数据的全局-局部手势识别:
给定输入的RGB-D视频图片,利用多人姿态估计方法估计出每帧图片中人体骨骼的坐标位置,并根据整个视频获得的上半身的骨骼点,利用长短时记忆网络对上半身的骨骼点进行特征进行时序建模和分类,得到基于全局骨骼的手势分类得分Ss-g;
S2、基于全局-局部的RGB-D模态手势识别:
对于RGB数据和深度数据的全局手势表示,首先分别将T帧的RGB和T帧深度图在通道沿时间进行堆叠,分别得到堆叠后的RGB图IRGB和T帧深度图IDepth,并且对VGG16卷积神经网络的输入通道进行改进,使其能够接受对应通道数目的数据输入;通过卷积神经网络的特征提取处理,分别在堆叠的RGB数据和堆叠的深度图获得对应的全局RGB特征xRGB-g和全局深度特征和xDepth-g;最后,利用神经网络的非线性分类方法分别获得基于全局的RGB手势分类得分SRGB-g和全局的深度手势分类得分SDepth-g;
S3、基于全局-局部的RGB光流和深度光流模态手势识别;
分别在RGB视频数据和深度视频数据中提取光流信号,从而分别获得RGB光流和深度光流图片数据,光流是一种记录像素运动的方式,其主要记录了每个像素沿时间帧之间的运动方向和强度;
S4、多模态的手势分类得分融合;
在获得骨骼、RGB图、深度图、RGB光流图和深度光流图5种不同的数据模态的全局和局部手势分类得分Ss-g,Ss-l,SRGB-g,SRGB-l,SDepth-g,SDepth-l,SRGB-f-g,SRGB-f-l,SDepth-f-g和Sdepth-f-l后;基于以上的手势分类得分进行平均,并且利用归一化函数进行类别得分的归一化,最终获得不同手势类别的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810216977.5/2.html,转载请声明来源钻瓜专利网。