[发明专利]基于3D卷积和SPP的多模态动态手势识别方法有效

申请号：	201911423353.1	申请日：	2019-12-31
公开（公告）号：	CN111104929B	公开（公告）日：	2023-05-09
发明（设计）人：	彭永坚;汪壮雄;许冰媛;周智恒;彭明;朱湘军	申请（专利权）人：	广州视声智能科技有限公司;华南理工大学
主分类号：	G06V40/20	分类号：	G06V40/20;G06T7/269;G06V10/40;G06V10/42;G06V10/44;G06V10/62;G06V10/764;G06V10/774;G06V10/82;G06N3/045;G06N3/0464;G06N3/08
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郭浩辉;麦小婵
地址：	510000 广东省广州市经***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于卷积 spp 多模态动态手势识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于3D卷积和SPP的多模态动态手势识别方法，其特征在于，包括：

数据预处理步骤，从RGB视频序列中提取光流特征和灰度特征，分别得到光流序列样本和灰度序列样本，并将每个光流序列样本和灰度序列样本及深度序列样本规整为32帧，每个样本维度为32×112×112，具体为：对SKIG数据集包含的1080个RGB视频序列，利用iDT算法提取光流特征，得到1080个光流序列样本；对RGB视频序列的每帧图像进行灰度化，得到1080个灰度序列样本；不同的手势序列样本具有不同的时长，采用重复帧或者最近邻域丢弃帧的方法将每个序列样本规整为固定的32帧，每帧维度为112×112，作为神经网络的输入；

所述iDT算法如下：iDT算法假设相邻两帧图像之间的关系用一个投影变换矩阵描述，后一帧图像由前一帧图像通过投影变换得到；相邻两帧之间采用SURF特征和密集光流的方法，进行特征匹配，利用RANSAC算法估计投影变换矩阵；

数据增强步骤，通过平移、翻转、加噪及仿射变换，扩增序列样本数据集；

神经网络训练步骤，将灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构，分别训练三个网络进行手势判别，具体为：将同一个手势对应的灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构，分别训练三个神经网络进行手势判别，具体地，光流序列样本训练得到第一神经网络，灰度序列样本训练得到第二神经网络，深度序列样本训练得到第三神经网络；所述神经网络由3D卷积神经网络、SPP及全连接层构成，使用3D卷积神经网络同时提取手势的时空特征，然后使用SPP提取全局及局部特征，输入两层全连接层及softmax得到手势分类的分数；

模型集成步骤，将三个网络对序列样本的分类结果进行集成，得到最终的判别结果。

2.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法，其特征在于，所述数据增强步骤过程如下：

对同一个手势对应的光流序列样本、灰度序列样本及深度序列样本进行相同方式的变换，变换方式包括：

平移操作如下，将每一个序列样本的每个通道上像素点(x,y)沿x轴平移Δx个单位，沿y轴平移Δy个单位，即(x′,y′)＝(x+Δx,y+Δy)；其中Δx是[-0.1×w,0.1×w]中的任意一个整数，是[-0.1×h,0.1×h]中的任意一个整数，w为每帧图像相应的宽度，h为每帧图像相应的长度；

翻转操作如下，将每一个序列样本的每个通道的数据进行镜像水平翻转和镜像上下翻转；

加噪操作如下，对每一个序列样本的每个通道的数据添加高斯白噪声，添加的噪声服从均值为0、方差为0.1的高斯分布；

仿射变换操作如下，对每一个序列样本的每个通道的数据进行设定角度的旋转，包括0°、45°、90°、135°、180°、225°、270°、315°。

3.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法，其特征在于，所述3D卷积神经网络包括5个卷积层；

每个卷积层包含卷积操作和池化两个操作，卷积操作采用的卷积核大小均为3×3×3，步长为1×1×1；

第一卷积操作、第二卷积操作、第三卷积操作分别包含64、128、256个卷积核，并在卷积操作后采用BN层及ReLU激活函数，第一个池化操作的池化窗口为1×2×2，步长为2×2×2，第二池化操作、第三池化操作的池化窗口均为2×2×2，步长为2×2×2；

第四卷积操作、第五卷积操作均包含512个卷积核，第四池化操作、第五池化操作的池化窗口为2×2×2，步长为2×1×1，其中，第一池化操作、第二池化操作、第三池化操作、第四池化操作和第五池化操作均采用均值池化方法。

4.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法，其特征在于，SPP网络对3D卷积神经网络得到的特征图进行不同尺度的空间金字塔池化，得到(16+4+1)×512维的特征向量，并将所述(16+4+1)×512维的特征向量输入两个全连接层，神经元个数均为1024，再将结果输入到softmax层，得到10类手势的分数。

5.根据权利要求1所述基于3D卷积和SPP的多模态动态手势识别方法，其特征在于，所述模型集成将三个网络对序列样本的手势分类分数对应相乘，将样本判别为分数最高的手势类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州视声智能科技有限公司;华南理工大学，未经广州视声智能科技有限公司;华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911423353.1/1.html，转载请声明来源钻瓜专利网。

上一篇：智能水表的供水方法、装置、智能水表及存储介质
下一篇：视频处理方法、装置、电子设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于3D卷积和SPP的多模态动态手势识别方法有效

专利文献下载