[发明专利]一种基于视频编码数据多特征融合的动态手势识别方法及系统在审
申请号: | 202110920085.5 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113489958A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 谢晓燕;赵欢;曹盘宇;尹芍润;杜卓林 | 申请(专利权)人: | 西安邮电大学 |
主分类号: | H04N9/04 | 分类号: | H04N9/04;H04N13/106;H04N19/172;H04N19/177;H04N19/42;H04N19/513;H04N19/593;G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710121 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视频 编码 数据 特征 融合 动态 手势 识别 方法 系统 | ||
本发明公开了一种基于视频编码数据多特征融合的动态手势识别方法及系统,以编码视频的GOP为基本单元进行数据的提取和融合,通过获取GOP中的I帧以及提取GOP中所有P帧的积累运动矢量和积累残差得到了很好的融合效果,特征数据从压缩数据中直接提取,数据提取过程不需要太多的计算开销,采用积累运动矢量关注图像序列中运动部分的空间位移信息,面向复杂光照背景环境有很好的鲁棒性;利用视频编码中的运动矢量数据和残差数据,在运动手势视频中拥有三维运动特征时,能达到很高的识别精确度,通过对单个GOP中所有P帧的运动矢量数据和残差数据进行积累获取了视频中更清晰的运动特征和轮廓信息,从而能够准确实现动态手势的识别,提高了手势识别效果。
技术领域
本发明属于信息技术领域,具体涉及一种基于视频编码数据多特征融合的动态手势识别方法及系统。
背景技术
动态手势作为一种重要的人机交互方式,近年来受到越来越多的关注。将手部执行的特定动作,利用相应设备捕获与分析,转化为一系列控制指令使智能设备做出响应,使得人机交互方式更加自然和友好。近年来,动态手势识别在体感游戏、手语识别、辅助驾驶、医疗器械以及智能家电控制等领域应用的越来越广泛。
目前在计算机视觉领域,大多数现有的动作识别模型是大型卷积神经网络(CNNs),仅使用原始RGB帧作为输入。然而,实际应用需要直接处理压缩视频的轻量级模型。由于原始视频流的巨大尺寸和高时间冗余;真实而有效的信号常常淹没在太多不相关的数据中。
由于编码视频中的运动矢量表征的为二维运动特征,所以当手势拥有三维运动特征时,运动矢量难以表征出手势在平面维度以外的特征。光靠一个运动矢量和关键帧的提取识别难以达到很好的识别效果,从而需要更深入的去挖掘编码视频中的数据及其组织结构的信息。
对压缩视频解码后的每一帧信息进行分析,不仅增大了系统资源的开销,并且对视频数据中许多冗余信息进行了不必要的计算。传统方法通常将视频数据进行解码分帧,通过分析多帧图像数据的相关性来理解视频数据的时域信息。虽然RGB数据提供了较好的空间信息表示,但是在一般情况下使用RGB视频数据进行时域信息提取,很容易受到图像中的背景、光照等因素的影响。
为了面向更丰富的手型变化,传统方法在RGB视频的基础上,会增加多种数据形式,如深度数据和从RGB视频中计算的光流数据。虽然通过增加光流和深度数据能够提高识别效果,但是计算光流增加的系统资源消耗量较大,而深度数据也需要增加更多的输入设备,并且存在数据对齐的问题。
动态手势有更为复杂,语义更丰富的形态,例如包括三维运动特征的手势,以及更丰富的手型变化,仅从运动矢量和首帧已无法对此类动态手势进行特征表示,而视频编码中还有更为丰富的数据格式和组织形态,传统方法之所以增加光流和深度数据,目的即为了获取视频中更清晰的运动特征和轮廓信息,但视频编码中的运动矢量数据和残差数据中同样拥有此类信息。
发明内容
本发明的目的在于提供一种基于视频编码数据多特征融合的动态手势识别方法及系统,以克服现有技术的不足。
为达到上述目的,本发明采用如下技术方案:
一种基于视频编码数据多特征融合的动态手势识别方法,包括以下步骤:
S1,将已知动态手势的视频编码数据分解为若干个等长度的GOP;
S2,获取每个GOP中的I帧、积累残差和积累运动矢量,采用I帧训练得到I帧识别模型,采用积累残差训练得到积累残差识别模型,采用积累运动矢量训练得到运动矢量识别模型;
S3,将待识别动态手势视频根据步骤S1中GOP下采样到等长,将下采样后的视频数据分别通过I帧识别模型、积累残差识别模型和运动矢量识别模型获取三个准确率,将获取的三个准确率进行融合得到最终融合概率,最终融合概率最大所对应的手势动作即为待识别动态手势视频中的手势动作。
进一步的,每个GOP包括7帧数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学,未经西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110920085.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置