[发明专利]基于条件句子生成和跨模态重排的手语翻译方法在审
申请号: | 202011182427.X | 申请日: | 2020-10-29 |
公开(公告)号: | CN112287690A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 李厚强;周文罡;赵鉴;齐炜帧 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/126;G06F40/211;G09B21/00 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 条件 句子 生成 跨模态 重排 手语 翻译 方法 | ||
1.一种基于条件句子生成和跨模态重排的手语翻译方法,其特征在于,包括:
将手语视频序列划分为若干视频片段,通过三维卷积神经网络从视频片段集合中提取时序特征,再通过时序建模器识别出手语视频序列中表达的关键词集合;
对关键词集合编解码处理,生成由关键词组成的通顺句子集合;
将通顺句子集合与手语视频序列进行比较,找出与手语视频序列相关度最高的句子,作为手语翻译结果。
2.根据权利要求1所述的一种基于条件句子生成和跨模态重排的手语翻译方法,其特征在于,所述将手语视频序列划分为若干视频片段,通过三维卷积神经网络从视频片段集合中提取时序特征包括:
将一个包含L帧的手语视频序列,切分为T个视频片段,得到的视频片段集合表示为
将视频片段集合输入到三维卷积神经网络中,得到时序特征f:
其中,Ωθ表示参数为θ的三维卷积神经网络。
3.根据权利要求1所述的一种基于条件句子生成和跨模态重排的手语翻译方法,其特征在于,所述通过时序建模器识别出手语视频序列中表达的关键词集合包括:
所述时序建模器包括m个第一变压器网络、全连接层及二分类判别器;
首先,将时序特征f分别输入至m个第一变压器网络中得到m个对应的隐变量∈,表示为:
∈=(e1,e2…em)=(r1(f),r2(f),…,rm(f))
其中,r为第一变压器网络,e为第一变压器网络得到的隐变量,下标为第一变压器网络的索引;m为候选口语单词的数目;
再将得到的隐变量∈通过全连接层和二分类器,得到每个候选口语单词在手语视频序列中出现的概率:
p(vi)=sigmoid(wi*ei+bi)
其中,sigmoid为激活函数;wi和bi为全连接层的权重与偏置参数;i=1,2,…,m;
将概率p(vi)超过设定值的候选口语单词作为关键词,从而获得关键词集合。
4.根据权利要求1所述的一种基于条件句子生成和跨模态重排的手语翻译方法,其特征在于,所述对关键词集合编解码处理,生成由关键词组成的通顺句子集合的步骤包括:
将关键词集合通过词编码层进行处理,再输入至第二变压器网络进行编码-解码学习,从而通过束搜索技术生成由关键词组成的通顺句子集合。
5.根据权利要求1所述的一种基于条件句子生成和跨模态重排的手语翻译方法,其特征在于,
利用变压器神经网络BERT提取各通顺句子的特征,利用卷积神经网络和第三变压器网络提取手语视频序列的特征,计算每一通顺句子的特征与手语视频序列的特征之间的余弦距离作为相关度指标,计算公式为:
其中,cos(.)表示计算余弦距离,yQ表示手语视频序列Q的特征,yD代表通顺句子D的特征,‖.‖表示对特征进行取模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011182427.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:凹槽结构的制作方法、三维NAND存储器及其制作方法
- 下一篇:一种电热水炉