[发明专利]基于多模态3D卷积神经网络的动态手势识别方法及系统有效
申请号: | 201910080484.8 | 申请日: | 2019-01-28 |
公开(公告)号: | CN109871781B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 杨明强;李杰;王德强;刘玉鹏;程琦 | 申请(专利权)人: | 山东大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 卷积 神经网络 动态 手势 识别 方法 系统 | ||
本公开公开了基于多模态3D卷积神经网络的动态手势识别方法及系统,包括:对获取的实际视频数据进行分帧处理,分为若干帧图像;从所述若干帧图像中提取若干关键帧图像;对每个关键帧图像进行灰度化处理得到灰度图像,对每个关键帧图像的灰度图像进行Gabor变换得到gabor图像,对每个关键帧图像的灰度图像进行边缘提取得到边缘图像;将每个关键帧图像所对应的灰度图像输入到预先训练好的第一、第二和第三3D卷积神经网络,分别输出第一、第二和第三分类结果;第一、第二和第三3D卷积神经网络的输出端同时连接到一个输出层,所述输出层对第一、第二和第三分类结果进行融合,输出最终的分类结果。
技术领域
本公开涉及一种基于多模态3D卷积神经网络的动态手势识别方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
随着近年来深度学习,人工智能的高速发展,也带动了人机交互向更智能,更方便,更人性化的方向发展,比如智能手机中的指纹解锁,指纹支付,人脸识别解锁和人脸支付等。手势相比其他人机交互方式,其表现方式更加自然多变,因此携带信息量也更加多元。目前基于手势识别的人机交互已经广泛应用于智能电视,VR,车载智能交互等。手势识别分为静态手势识别和动态手势识别,静态手势识别强调手在空间中的表现形式,所以识别相对简单。而动态手势识别不仅要关注手势在空间中的变化,更重要的是要手势在时间上的轨迹与变化。
发明内容
为了解决现有技术的不足,本公开提供了基于多模态3D卷积神经网络的动态手势识别方法及系统,其使用光流法提取视频关键帧;将关键帧生成后的视频图像做gabor变换和边缘提取;防止训练过拟合的数据时域增扩以及最主要的多模态3D卷积神经网络的融合。
第一方面,本公开提供了基于多模态3D卷积神经网络的动态手势识别方法;
基于多模态3D卷积神经网络的动态手势识别方法,包括:
对获取的实际视频数据进行分帧处理,分为若干帧图像;
从所述若干帧图像中提取若干关键帧图像;
对每个关键帧图像进行灰度化处理得到灰度图像,对每个关键帧图像的灰度图像进行Gabor变换得到gabor图像,对每个关键帧图像的灰度图像进行边缘提取得到边缘图像;
将每个关键帧图像所对应的灰度图像输入到预先训练好的第一3D卷积神经网络,输出第一分类结果;
将每个关键帧图像所对应的gabor图像输入到预先训练好的第二3D卷积神经网络,输出第二分类结果;
将每个关键帧图像所对应的边缘图像输入到预先训练好的第三3D卷积神经网络,输出第三分类结果;
第一、第二和第三3D卷积神经网络的输出端同时连接到一个输出层,所述输出层对第一、第二和第三分类结果进行融合,输出最终的分类结果。
作为一种可能的实现方式,所述对获取的实际视频数据进行分帧处理,分为若干帧图像具体步骤为,将视频的每一帧作为一帧图像。
作为一种可能的实现方式,从所述若干帧图像中提取若干关键帧图像的具体方式为:
对视频进行分帧处理后,得到若干帧图像;
按照时间顺序,将所述若干帧图像划分为K个视频段,每个视频段中均包括N帧图像;
然后,对每个视频段均采用Horn-Schunck光流法提取视频的关键帧图像;最后得到关键帧图像序列。
作为一种可能的实现方式,对每个视频段均采用Horn-Schunck光流法提取视频的关键帧图像的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910080484.8/2.html,转载请声明来源钻瓜专利网。