[发明专利]基于全局-局部RGB-D多模态的手势识别方法有效

申请号：	201810216977.5	申请日：	2018-03-16
公开（公告）号：	CN108388882B	公开（公告）日：	2021-09-21
发明（设计）人：	郑伟诗;李伟宏;李本超	申请（专利权）人：	中山大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	李斌
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于全局‑局部RGB‑D多模态的手势识别方法，本发明主要通过包括骨骼位置、RGB图像、深度图像和光流图像等数据模态对输入的手势视频进行表示，得到多模态的手势数据表示后，利用卷积神经网络和递归神经网络的方法把不同模态的手势数据分别进行特征表达，并且利用不同模态下得到的特征进行手势的分类。最终将不同模态下得到的不同类别的手势得分进行融合，得到最终基于多模态的手势分类结果。本发明可以应用于客户端或云端对用户输入的手势视频进行识别，通过手势的输入使计算机或手机软硬件做出对应的响应。
搜索关键词：	基于全局局部 rgb 多模态手势识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于全局‑局部RGB‑D多模态的手势识别方法，其特征在于，包括下述步骤：S1、骨骼序列生成及基于骨骼数据的全局‑局部手势识别：给定输入的RGB‑D视频图片，利用多人姿态估计方法估计出每帧图片中人体骨骼的坐标位置，并根据整个视频获得的上半身的骨骼点，利用长短时记忆网络对上半身的骨骼点进行特征进行时序建模和分类，得到基于全局骨骼的手势分类得分Ss‑g；S2、基于全局‑局部的RGB‑D模态手势识别：对于RGB数据和深度数据的全局手势表示，首先分别将T帧的RGB和T帧深度图在通道沿时间进行堆叠，分别得到堆叠后的RGB图IRGB和T帧深度图IDepth，并且对VGG16卷积神经网络的输入通道进行改进，使其能够接受对应通道数目的数据输入；通过卷积神经网络的特征提取处理，分别在堆叠的RGB数据和堆叠的深度图获得对应的全局RGB特征xRGB‑g和全局深度特征和xDepth‑g；最后，利用神经网络的非线性分类方法分别获得基于全局的RGB手势分类得分SRGB‑g和全局的深度手势分类得分SDepth‑g；S3、基于全局‑局部的RGB光流和深度光流模态手势识别；分别在RGB视频数据和深度视频数据中提取光流信号，从而分别获得RGB光流和深度光流图片数据，光流是一种记录像素运动的方式，其主要记录了每个像素沿时间帧之间的运动方向和强度；S4、多模态的手势分类得分融合；在获得骨骼、RGB图、深度图、RGB光流图和深度光流图5种不同的数据模态的全局和局部手势分类得分Ss‑g，Ss‑l，SRGB‑g，SRGB‑l，SDepth‑g，SDepth‑l，SRGB‑f‑g，SRGB‑f‑l，SDepth‑f‑g和Sdepth‑f‑l后；基于以上的手势分类得分进行平均，并且利用归一化函数进行类别得分的归一化，最终获得不同手势类别的概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810216977.5/，转载请声明来源钻瓜专利网。

上一篇：一种区分真人和照片回放的防伪方法及装置
下一篇：一种基于HOG+SVM的视频人数统计方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于全局-局部RGB-D多模态的手势识别方法有效

专利文献下载