[发明专利]一种基于强化学习的视频连续手语识别方法及系统在审
申请号: | 201910738365.7 | 申请日: | 2019-08-09 |
公开(公告)号: | CN112347826A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 李厚强;周文罡;魏承承;赵鉴 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 视频 连续 手语 识别 方法 系统 | ||
本发明公开了一种基于强化学习的视频连续手语识别方法及系统,方法包括:基于残差连接的三维卷积神经网络对原始手语视频的各个视频段进行时空域特征提取,对时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;基于多尺度感知网络对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;基于保存的视频特征,利用边界检测器根据定义的状态确定出视频段的语义边界;将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征,基于进一步提取到的特征进行手语词汇的识别。本发明能够提高手语识别性能。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于强化学习的视频连续手语识别方法及系统。
背景技术
根据世界卫生组织发布的最新数据,全球大约有4.66亿人患有残疾性听力损失。据估计,到2050年将有9亿多人出现残疾性听力损失。长久以来,聋人与聋人、聋人与听人之间的交流主要依赖于手语。受限于日常手语环境和专业手语教育的缺失,绝大多数听人无法通过手语与聋人交流,造成了聋人在公共环境(如医院、车站等)中的交流障碍。此外,手语具有很强的地域差异性,即不同地域的手语规则和意义具有显著的不同,这给聋人之间的交流带来了不便。为了缓解上述问题,手语识别技术应运而生。手语识别主要分为两种类别:基于孤立词的手语识别和基于连续句子的手语识别。更加贴合实际应用场景的连续手语识别任务是指,给定一段手语视频,设计识别系统,使之识别出视频中描述的句子。连续手语识别是一种将图像序列(长序列)映射到单词序列(短序列)的任务。在实际应用场景中,图像序列和单词序列之间并没有对齐信息,即没有明确的时间间隔将图像序列分隔开,指明两个间隔之间的若干帧对应某一个单词。因此连续手语识别是一种弱监督任务。
随着深度神经网络技术的飞速发展,CNN(Convolutional Neural Networks,卷积神经网络)和RNN(Recurrent Neural Network,循环神经网络)分别在计算机视觉和自然语言处理领域取得了显著的成绩。卷积神经网络具有强大的特征表达能力,循环神经网络具有优越的上下文建模能力。近年来,众多手语识别方法借助这两类神经网络的优势,取得了很大的性能突破。此外,针对弱监督性质,连续手语识别方法引入了CTC(Connectionisttemporal classification,联结主义时间分类器)进行序列对齐的学习。目前,CNN-RNN-CTC框架被普遍应用于连续手语识别任务,具有较好的性能。具体而言,这些方法首先把原始视频等间隔切分成若干视频段,采用卷积神经网络对每一段视频进行时间-空间域的联合特征表达,再利用循环神经网络进行全局的上下文建模。此时,每段视频都被表达成一个包含语义的特征向量。连接主义时间分类器算法在训练阶段计算出目标方程,而在测试阶段,根据视频段的特征向量,将该视频段分类为一个单词。把所有视频段对应的单词做连接以后,通过删除无意义单词、合并重复单词的操作,最终可以得到原视频对应的预测句子。
一般而言,手语视频具有交替性和重复性两种性质。交替性是指随着视频的播放,有用信息和无用信息交替出现,这里无用信息包含动作间的过渡、动作静止等情况;重复性是指一个具体的手语词义,需要不止一个视频段才能完整表达,或者一段无意义信息,一般覆盖不止一个视频段。现有的基于CNN-RNN-CTC的手语识别技术存在的问题是,只着眼于一个视频段将其分类为一种手语词汇,这种模型忽略了相邻视频段表达含义也相似的潜在信息,即没有利用手语视频语义重复的性质,这是性能提升的瓶颈。
因此,如何更加有效的进行视频连续手语识别,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于强化学习的视频连续手语识别方法,能够利用强化学习检测出手语视频中的语义边界,对语义相似的手语视频段做更高层次的特征抽取,在包含高阶语义的视频特征层面上进行手语识别以提高其性能。
本发明提供了一种基于强化学习的视频连续手语识别方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910738365.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种院线级汽车影院扬声器布局方案
- 下一篇:磁控管调谐机构和磁控管组件