[发明专利]基于编解码器的手语翻译系统在审
申请号: | 202210226325.6 | 申请日: | 2022-03-09 |
公开(公告)号: | CN114758411A | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 李天军;刘明强;薛万利;陈胜勇 | 申请(专利权)人: | 天津理工大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/82;G06F40/58;G06F40/51;G06F40/274;G06N3/04;G06N3/08;G09B21/00 |
代理公司: | 北京市中闻律师事务所 11388 | 代理人: | 雷电 |
地址: | 300384 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 编解码器 手语 翻译 系统 | ||
本发明要解决的技术问题是提升手语视频翻译的效果,发明的内容是提供一个基于编解码器的手语翻译系统。该系统包括:特征提取模块,以获得手语视频的特征表示;翻译模块,以建立手语和自然语言之间的翻译模型。本发明同时利用手语词序列和自然语言序列的标注,从两个方面来提升手语视频翻译的性能。一方面,为获取更好的特征,通过采用卷积神经网络和循环神经网络相结合的结构来充分利用帧自身和帧间的信息;在CTC损失的基础上添加全局特征和局部特征之间的KL散度损失,使得在视频和标注手语词序列的对齐时更充分地利用手语视频本身。另一方面,为改善翻译效果,将多种翻译技术运用到解码阶段。本发明在翻译指标上取得了一定的改进。
技术领域
本专利涉及图像处理和计算机视觉领域以及神经语言翻译技术领域,特别地,涉及手语视频翻译领域。
背景技术
为了解决聋人和听人之交流的障碍,手语识别和翻译技术应运而生。手语翻译是将聋人打的手语视频转译成听人日常用到的自然语言。然而,现阶段的方法在将手语视频转化成文本时的准确率不太理想。手语翻译技术面临的难题有两个方面。
一、手语视频的表征。为缓解视频的冗余,需进行视频特征提取。由于实际场景中一个词往往占了几十上百个十分相似的帧,并且大多时候一帧中实际有意义的区域只有手和面部,手语视频包含很多冗余的信息。如果不加处理得全部利用所有帧的所有像素作为特征的话,除了浪费硬件资源之外,神经网络的训练和预测的速度也比较慢,同时翻译的效果会因为网络的参数过多训练难度大而不佳。当前的方案是采用二维卷积神经网络来提取图像的特征,但是这样的网络孤立地提取每一帧的特征,缺乏视频帧间的时序特征,会造成性能瓶颈。此外,手语视频和手语词序列序列的对应不是简单的一一对应,而是一对多的对应关系,而标注对与每一帧所对应的词缺乏精确的描述,而在识别手语时则需要将不同含义的帧区分开,对应到相应的手语词上,这也是当前的一个难点。主要的解决方案是用语音识别领域常用的CTC(Connectionist Temporal Classification,连接时序分类)来寻找最佳的对应路径。这个方法的性能瓶颈在于并没有充分的利用手语本身的特点,还有改进的空间。
二、神经语言翻译。手语视频帧和自然语言在表达时的语序并不一致,并不存在一个简单的对应,因而神经网络很难学到二者的对应关系,这是手语翻译的一大难题。当前解决方案主要是将手语词序列作为手语视频和自然语言之间的中间表示。手语视频和手语词序列有着更简单的对应,可以先学习手语视频与手语词序列对应,然后将神经语言翻译用来学习两种手语和自然语言之间的对应关系。手语有它特有的语法,可以看成一种语言,它和自然语言之间的转换适用于神经语言翻译的范式。手语词序列和手语视频帧的顺序对应。但是,手语相对自然语言较为简陋,在视频翻译过程中,仅仅像神经语言翻译那样学习手语词序列和自然语言序列的对应关系,则必定会丢失很多细节,导致翻译的精准度不高。
发明内容
针对现有技术制约手语翻译性能的两个方面,本发明提出一个基于编解码器的手语翻译系统,力求解决的技术问题是提升手语视频翻译的效果。
为实现上述目的,本发明提出一个基于编解码器的手语翻译系统,主要由以下两个功能模块构成:特征提取模块,用于提取手语视频的特征,其输入是手语视频,输出是特征,所述特征能够解码成手语词序列;翻译模块,用于建立手语和自然语言之间的翻译模型,其输入是手语词序列,输出是概率向量序列,概率向量序列能够解码成自然语言词序列。手语翻译系统的数据来源于数据集,所述数据集是多组数据构成的集合,其每一组数据的组成是手语视频、标注手语词序列和标注自然语言词序列。
根据本发明的一个方面,特征提取模块的构成包括:二维卷积神经网络,用于获得所述手语视频的视频帧序列各帧的特征,所述视频帧序列经过二维卷积神经网络之后,依次经过一维卷积神经网络和双向循环神经网络;所述一维卷积神经网络,其输出用于获得视频的局部特征;所述双向循环神经网络,其输出用于获得视频的全局特征;投影层,用于将所述一维卷积神经网络和双向循环神经网络的输出投影到手语词空间,获得局部特征和全局特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210226325.6/2.html,转载请声明来源钻瓜专利网。