[发明专利]一种基于场景识别的中文手语翻译方法及系统有效
申请号: | 202011567901.0 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112668463B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 陈斌;牟中强 | 申请(专利权)人: | 株洲手之声信息科技有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/764;G06V10/75;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清;胡君 |
地址: | 412007 湖南省株洲市天*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 场景 识别 中文 手语 翻译 方法 系统 | ||
1.一种基于场景识别的中文手语翻译方法,其特征在于,步骤包括:
S1.模型构建:构建不同场景类型下手语动作与单词之间映射关系的手语单词识别模型,以及构建不同场景类型与手语动作之间映射关系的场景识别模型,将所述手语单词识别模型与所述场景识别模型进行级联,形成手语翻译模型;
S2.模型训练:使用手语动作训练集对所述手语翻译模型、场景识别模型进行训练,训练至直接由所述手语单词识别模型得到的手语单词识别结果与根据所述场景识别结果得到的手语单词识别结果一致,以使得所述场景识别模型与所述手语单词识别模型达到动态平衡,得到训练后的手语翻译模型,其中使用手语动作训练集对所述手语翻译模型、场景识别模型进行训练时,将当前手语动作数据输入至所述手语单词识别模型中,得到第一手语单词识别结果,以及将当前手语动作数据输入至所述场景识别模型中,得到场景识别结果,并将所述场景识别结果输入至所述手语单词识别模型中,所述手语单词识别模型按照所述场景识别结果对当前手语动作数据重新进行识别,得到第二手语单词识别结果;
S3.数据采集:采集待翻译的手语动作视频并提取出手语动作数据;
S4.手语翻译:将步骤S3提取出的所述手语动作数据输入至训练后的所述手语翻译模型的场景识别模型中,识别出当前的场景类型;根据识别出的场景类型,使用训练后的所述手语翻译模型中所述手语单词识别模型对当前手语动作数据进行识别,得到手语单词的翻译结果输出。
2.根据权利要求1所述的基于场景识别的中文手语翻译方法,其特征在于,所述步骤S1中,基于深度树型匹配模型构建所述场景识别模型,包括两层以上的节点,其中第一层layer 1中各节点为手语动作帧,第二层layer2至第N层layer N中各节点为手语场景词汇,所述layer N表示对应层中的场景词汇节点由N个手语动作帧节点映射得到;所述场景识别模型经过训练后得到手语动作帧节点到手语场景词汇节点的映射概率。
3.根据权利要求2所述的基于场景识别的中文手语翻译方法,其特征在于,所述基于深度树型匹配模型构建所述场景识别模型的步骤包括:将所述手语动作训练集中手语动作帧数据输入至深度树型匹配模型中,并作为所述深度树型匹配模型中所述第一层layer 1的各节点输入;建立N个从第一层layer中节点到第N层layer N中1个节点的映射关系,使用映射概率高低表示映射关系的紧密程度,其中当输入手语动作帧数据中对应的场景节点在同一层时,取映射概率最高的场景节点为场景词汇的输出节点;当输入手语动作帧数据中对应的场景节点处于不同层时,取映射概率最高的场景节点为场景词汇的输出节点;当输入手语动作帧数据中对应的不同层的场景节点概率相同时,优先选择层数高的场景节点作为场景词汇的输出节点。
4.根据权利要求1所述的基于场景识别的中文手语翻译方法,其特征在于,所述步骤S1中,基于循环卷积神经网络模型构建所述手语单词识别模型,所述循环卷积神经网络模型包括级联连接的卷积神经网络模型、循环神经网络模型,由所述卷积神经网络模型建立不同场景下手语动作与手语单词之间映射关系,由所述循环神经网络模型获取不同时刻手语动作之间的相关性。
5.根据权利要求4所述的基于场景识别的中文手语翻译方法,其特征在于,基于所述循环卷积神经网络模型,采用多尺度残差网络提取输入手语动作数据中每帧图片的空间特征向量,具体步骤包括:输入单帧手语动作图片,经过卷积后,将特征图平均分割为缩放维度为s的多个特征图子集xi,其中i∈{1,2,...,s},每个所述特征图子集具有相同的空间大小且通道数为1/s,除第一个特征图子集x1外,将其余每个特征图子集xi进行卷积操作后得到输入yi,且将前一组的输出特征与下一组输入特征图一起发送到下一组滤波器,最后将所有组的特征图连接起来发送到另一组指定的滤波器中,以将所有特征信息融合在一起,形成所述空间特征向量。
6.根据权利要求5所述的基于场景识别的中文手语翻译方法,其特征在于,基于所述循环卷积神经网络模型,还包括使用门控循环单元提取输入手语动作数据的时间特征,形成时间特征向量,并将提取的所述空间特征向量与所述时间特征向量进行融合,最终得到全局语义信息以进行手语单词识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株洲手之声信息科技有限公司,未经株洲手之声信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011567901.0/1.html,转载请声明来源钻瓜专利网。