[发明专利]一种基于语法分类器的视频连续手语识别方法及系统有效
申请号: | 201910732178.8 | 申请日: | 2019-08-08 |
公开(公告)号: | CN110472548B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 李厚强;周文罡;魏承承 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/764;G06V10/82;G06K9/62;G06V30/194;G06N3/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语法 分类 视频 连续 手语 识别 方法 系统 | ||
本发明公开了一种基于语法分类器的视频连续手语识别方法及系统,方法包括:将获取到的原始手语视频切分为多个视频段,基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取,对提取到的时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;采用最大池化层对视频的特征做全局池化,得到原始手语视频的特征向量;基于特征向量,采用单词分类器模块给出句子中每个单词对应的置信度分数,采用元组分类器模块给出句子中每个多元组的置信度分数;基于单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数,确定出手语识别结果。本发明能够提高手语识别性能。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于语法分类器的视频连续手语识别方法及系统。
背景技术
手语是聋人与听人之间沟通的桥梁。由于大多数听人对手语知识了解十分匮乏,聋人与听人之间有较大的交流障碍。在时代信息化的今天,这会造成听障人士在受教育和求职等方面的损失。为了缓解这一现象,越来越多的研究者致力于开发手语识别系统。例如,基于视频的手语识别系统旨在把手语视频翻译为有顺序的手语词汇,以帮助听人理解聋人在视频中表达的意思。概括地说,手语识别分为两大类:针对孤立词的手语识别和针对连续句子手语识别。前者对应的手语视频只描述一个孤立的手语词汇;而后者对应的手语视频则描述的是实际生活中完整的句子。显然,连续手语识别更加具有挑战性和实用价值。目前,研究者们主要聚焦于基于视频的连续手语识别场景。
手语视频对应的图像序列作为连续手语识别系统的输入,这个视频描述的真实词汇序列则为系统的期望输出,输入序列与输出序列不等长。此外,图像序列和真实标签序列是未对齐的,体现在图像流中的词义边界未知,即预先只知道视频对应的真实词汇序列,而视频中的任意图像对应的具体词汇标签未知。针对手语识别的不等长序列映射性质,研究者们提出了众多基于编码器-解码器的方法来解决连续手语识别问题。这类方法通常先用卷积神经网络提取视觉层面的特征,然后利用基于循环神经网络的编码器对视觉特征做联系上下文的序列学习,将视频编码为一个固定长度的特征向量,最后用解码器从这个特征向量中解码出视频对应的词汇序列。另外一类手语识别方法是基于联结主义时间分类器发展起来的,连接主义时间分类器是一种序列对齐模型,通过引入空标签,可以对视频中的每一帧进行词汇预测,而后通过删除空标签、合并连续同类词汇的方法去除预测序列中的冗余信息,从而把长序列转化为短序列,作为连续手语识别的结果。
基于编码器-解码器框架的连续手语识别方法通常不能有效规避编码器-解码器结构的固有缺点:训练时,解码器在每个时间步上的输入都是真实的词汇标签;而在测试阶段,解码器不可能获得真实标签,只能用上个时间步的预测结果作为此步预测的参考信息。预测结果在时间维度上不断向后传递,当某些时间步上的预测词汇有误时,这些错误会累积,导致最终翻译出的句子与真实句子有较大出入。除此之外,基于编码器-解码器的连续手语识别方法和基于联结主义时间分类器的手语识别方法通常只利用循环神经网络进行全局地上下文建模,而不能显式地对手语的局部表达进行建模。
因此,如何更加有效的进行视频连续手语识别,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于语法分类器的视频连续手语识别方法,能够避免传统编码器-解码器框架带来的错误积累的问题,以及能够通过对手语中的局部表达进行建模,以提高手语识别性能。
本发明提供了一种基于语法分类器的视频连续手语识别方法,包括:
获取原始手语视频;
将获取的所述原始手语视频切分为多个视频段;
基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取;
对提取到的所述时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;
采用最大池化层对所述视频的特征做全局池化,得到所述原始手语视频的特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910732178.8/2.html,转载请声明来源钻瓜专利网。