[发明专利]一种基于三维残差神经网络和视频序列的动态手语识别方法在审

专利信息
申请号: 201910282569.4 申请日: 2019-04-09
公开(公告)号: CN110110602A 公开(公告)日: 2019-08-09
发明(设计)人: 闵卫东;廖艳秋;熊鹏文;韩清;张愚;徐剑强;邹松;熊辛;汪琦 申请(专利权)人: 南昌大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32;G06K9/62;G06N3/04;G06N3/08;G06T7/194
代理公司: 北京众合诚成知识产权代理有限公司 11246 代理人: 胡群
地址: 330000 江西省*** 国省代码: 江西;36
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 视频序列 手势 手语识别 神经网络 时空特征 残差 三维 测试数据集 有效地实现 模型检测 特征序列 视频帧 有效地 手语 分析 分割 分类
【权利要求书】:

1.一种基于三维残差神经网络和视频序列的动态手语识别方法,其特征在于:所述方法提出了基于三维残差神经网络的新模型B3D ResNet,包括以下步骤:

步骤1,在视频帧中,采用Faster R-CNN模型检测手的位置,并从背景中分割出手;

步骤2,利用B3D ResNet模型对输入的视频序列进行手势的时空特征提取和特征序列分析;

步骤3,通过对输入的视频序列进行分类,可以识别手势,有效地实现动态手语识别。

2.根据权利要求1所述的一种基于三维残差神经网络和视频序列的动态手语识别方法,其特征在于:所述采用Faster R-CNN模型检测手的位置的步骤如下:

(1)当图像序列输入卷积神经网络时,将会生成特征图,区域提议网络在以核大小为n×n的网络窗口在特征图上滑动;

(2)区域生成网络推荐候选区域,输出多个符合条件的候选区域;

(3)感兴趣区域池化层将不同大小的候选区域转换为固定长度的候选区域,然后输出固定长度的候选区域;

(4)对每个感兴趣区域进行分类和边界框回归,输出候选区域所属的类,和候选区域在图像中的精确位置。

3.根据权利要求1所述的一种基于三维残差神经网络和视频序列的动态手语识别方法,其特征在于:所述B3D ResNet模型主要包括17个卷积层,2个双向LSTM层,1个全连接层;在输入层中,有八个大小为112×112的图像帧,以当前帧为中心,并通过三个具有三维通道输入L×H×W,其中L,H和W是时间长度,高度和宽度;然后,分别在三个通道运用三维卷积,其内核大小为7×7×3,其中7×7在空间维度中,在时间维度上为3;核大小为2×2×1的下采样作用于卷积层中的每个特征图,来降低特征图维数;通过在三个通道上应用具有内核大小3×3×3的3D卷积来获得下一个卷积层C2_x,下一层C3_x,C4_x和C5_x具有相同的操作;之后,在每两层卷积神经网络之间插入直连接将网络转换为其对应的残差版本;然后特征向量被送到在两个方向上运行的长短期记忆网络;将每个方向长短期记忆网络的隐藏状态层,完全连接层和软最大层组合以获得对应于每个动作的中间分数;最后,将两个长短期记忆网络的分数平均以获得当前序列的类别预测分数。

4.根据权利要求1所述的一种基于三维残差神经网络和视频序列的动态手语识别方法,其特征在于:所述B3D ResNet模型对输入的视频序列进行手势的时空特征提取包括:首先提取输入视频序列的特征向量,通过构建三维卷积,卷积层中的特征映射连接到前一层中的多个连续帧,然后捕获运动信息;三维卷积网络层的设计原理是利用三维卷积核进行的,它可以从帧立方体中提取一种类型的特征;在任何单个网络层的每个要素中,任意位置处的特征向量值由以下公式给出:

其中,tanh()是双曲正切函数,参数t和x是当前层的连接参数,H、W和D是三维卷积内核的高度,宽度和时间维度,z是特征层的偏差值;

发明利用输入的加性残差函数,通过快捷连接,学习时空特征;为了将二维残差单元用于编码时空视频信息的三维体系结构,基本的残余单元按照三维卷积网络层的设计原理进行修改,三维卷积分别在三个通道中的每一个通道具有卷积核大小为3×3×3的相同核尺寸,B3D ResNet模型可以通过将残差连接应用于三维卷积网络,并且自动地从输入视频序列中提取时空特征。

5.根据权利要求1所述的一种基于三维残差神经网络和视频序列的动态手语识别方法,其特征在于:所述B3D ResNet模型对输入的视频序列进行手势的特征序列分析包括:利用双向长短期记忆单元,其包含六个共享权重并整合来自未来和过去的信息,以对视频序列中的每个块进行预测;在双向长短期记忆单元中,前向传播层和后向传播层连接到输出层;从概念上讲,存储器单元存储过去的上下文,输入门和输出门单元允许长时间存储上下文;同时,可以通过遗忘门清除单元中的存储器;从形式上讲,包括输入序列x={x1,x2,...,xt},单元状态c={c1,c2,...,ct}和隐藏状态h={h1,h2,...,ht},it,ft,ot,ct,gt,ht分别是输入门,遗忘门,输出门,存储器单元激活矢量,状态函数,隐藏函数;双向长短期记忆单元的方程如下:

it=σ(wxixt+whiht-1+bi) (2)

ft=σ(wxfxt+whfht-1+bf) (3)

ot=σ(wxoxt+whoht-1+bo) (4)

gt=tanh(wxcxt+whcht-1+hc) (5)

ct=ftct-1+itgt (6)

ht=ottanh(ct) (7)

其中tanh()是双曲正切函数,遗忘门决定何时应从存储器单元清除信息,输入门决定何时应将新的形成结合到存储器中,该层生成一组候选值,如果输入门允许,它们将被添加到存储器单元中;参考公式(6),基于遗忘门,输入门和新候选值的输出,更新存储器单元;在公式(7)中,输出门控制隐藏状态和存储信息;最后,隐藏状态表示为存储器单元状态的函数和输出门之间的乘积。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南昌大学,未经南昌大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910282569.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top