[发明专利]用于视频翻译的方法、装置、电子设备和介质在审
申请号: | 202310324169.1 | 申请日: | 2023-03-29 |
公开(公告)号: | CN116522962A | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 黄路扬;彭宁新;程善伯;朱培豪;孙泽维;王明轩 | 申请(专利权)人: | 北京有竹居网络技术有限公司;脸萌有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/151;H04N5/265;H04N19/172 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 视频 翻译 方法 装置 电子设备 介质 | ||
1.一种用于视频翻译的方法,包括:
基于视频的多个图像帧,获得所述视频的视频嵌入;
基于与所述视频相关联的源语言文本,获得所述源语言文本的文本嵌入;
将所获得的所述视频嵌入与所获得的所述文本嵌入进行拼接;
将经拼接的所述视频嵌入和所述文本嵌入统一编码为跨模态嵌入;以及
对所述跨模态嵌入进行解码以获得目标语言文本。
2.根据权利要求1所述的方法,其中获得所述视频的所述视频嵌入包括:
从所述视频的所述多个图像帧提取视频特征;以及
基于所述视频特征和位置嵌入来获得所述视频嵌入。
3.根据权利要求2所述的方法,其中获得所述视频嵌入包括:
通过对所述视频特征进行位置编码,获得经位置编码的所述视频特征;以及
通过使经位置编码的所述视频特征归一化,获得归一化的视频特征作为所述视频嵌入。
4.根据权利要求2所述的方法,其中:
将经拼接的所述视频嵌入和所述文本嵌入统一编码成所述跨模态嵌入由跨模态编码器执行;
基于所述视频特征和所述位置嵌入来获得所述视频嵌入由视频嵌入器执行;并且
所述跨模态编码器和所述视频嵌入器被包括在翻译模型中。
5.根据权利要求4所述的方法,还包括:
在时间维度上对所述视频嵌入和所述文本嵌入进行平均;
基于经平均的所述视频嵌入和所述文本嵌入,获得所述视频的视频表示和所述源语言文本的文本表示;以及
确定所述视频表示与所述文本表示之间的相似性。
6.根据权利要求5所述的方法,其中确定所述视频表示与所述文本表示之间的所述相似性包括:
确定所述视频表示与所述文本表示之间的距离;以及
基于所述距离,计算视频表示-文本表示对的相似性得分,所述相似性得分指示所述相似性。
7.根据权利要求6所述的方法,还包括:
确定针对所述相似性得分的相似性得分阈值;以及
从多个批次中的每个批次选择所述相似性得分高于所述相似得分阈值的所述视频表示-文本表示对。
8.根据权利要求7所述的方法,其中所述多个批次中的每个批次包括正例和负例,所述正例包括视频与文本相关联的视频表示-文本表示对,并且所述负例视频与文本不相关联的视频表示-文本表示对。
9.根据权利要求5所述的方法,还包括:
使用基于所获得的所述目标语言文本与真实的翻译结果之间的差异的第一损失函数和基于所述视频表示与所述文本表示之间的所述相似性的第二损失函数来训练所述翻译模型;以及
通过最小化所述第一损失函数和所述第二损失函数来调整所述翻译模型的参数集。
10.根据权利要求4所述的方法,还包括:
使用文本输入对包括在所述翻译模型中的所述跨模态编码器和解码器进行训练,所述文本输入包括双语语料;以及
使用所述文本输入和视频输入对所述跨模态编码器和所述解码器进行训练。
11.根据权利要求2所述的方法,其中提取所述视频特征包括:
将所述视频表示为针对所述视频的一系列连续帧;以及
通过对针对所述视频的所述一系列连续帧进行投影,获得维度与所述文本嵌入的维度相同的所述视频特征,
其中所述视频特征是帧级别的特征,并且所述视频特征包括二维视频特征和三维视频特征。
12.根据权利要求1所述的方法,其中获得所述源语言文本的所述文本嵌入包括:
将所述源语言文本表示为针对所述源语言文本的一系列令牌;以及
由包括在翻译模型中的文本嵌入器将针对所述源语言文本的所述一系列令牌转换为所述文本嵌入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司;脸萌有限公司,未经北京有竹居网络技术有限公司;脸萌有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310324169.1/1.html,转载请声明来源钻瓜专利网。