[发明专利]基于多任务训练的端到端图像文本翻译方法、系统、装置有效
申请号: | 202110306816.7 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113011202B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 赵阳;马聪;张亚萍;周玉 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/42;G06N3/0455;G06N3/092;G06N3/044;G06N5/022 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 任务 训练 端到端 图像 文本 翻译 方法 系统 装置 | ||
1.一种基于多任务训练的端到端图像文本翻译方法,其特征在于,该方法包括:
步骤S10,获取待翻译的数据,作为输入数据;所述输入数据包括图像、视频、文本;
步骤S20,对所述输入数据进行预处理,预处理后,输入预构建的图像文本翻译模型,得到所述输入数据对应的翻译结果;
所述图像文本翻译模型包括特征提取器、编码器-解码器;所述图像文本翻译模型其训练方法为:
A10,获取训练样本数据及其对应的翻译结果真值标签;所述训练样本数据包括图像、视频、文本;
A20,对所述训练样本数据进行预处理,得到预处理数据;并提取所述预处理数据的特征;
其中,提取所述预处理数据的特征,其方法为:
若所述输入数据为图像/视频,提取过程为:通过基于残差连接的卷积神经网络构建的特征提取器提取预处理数据的特征;并利用双向循环神经网络对图像特征进行初步的序列建模;
若所述输入数据为文本,提取过程为:通过词嵌入模型对所述预处理数据进行向量化表示;
A30,将提取的特征输入编码器-解码器中,得到训练样本数据对应的翻译预测结果;
A40,计算翻译预测结果、翻译结果真值标签的损失值,并将图像、视频、文本不同类别的训练样本数据对应的损失值进行加权求和,作为总损失;基于所述总损失更新图像文本翻译模型的模型参数;
步骤A40之后还包括对图像文本翻译模型的强化训练,其方法为:结合训练好的图像文本识别模型和文本机器翻译模型,通过预设的多教师分部知识蒸馏方法对图像文本翻译模型进行强化训练学习;所述图像文本识别模型均基于特征提取器、编码器、解码器构建;
通过预设的多教师分部知识蒸馏方法对图像文本翻译模型进行强化训练学习,具体包括:
将图像文本识别模型作为教师模型:通过图像文本识别模型对输入的包含文本的图像进行解码输出,用输出的句子或每一时刻在源端词表上对各个词语的预测分布作为监督信息,对所述图像文本翻译模型的特征提取器、编码器进行监督学习;
将文本机器翻译模型作为教师模型:通过文本机器翻译模型对输入的源端文本进行解码输出,用输出的目标端文本或每一时刻在目标端词表上对各个词语的预测分布作为监督信息,对所述图像文本翻译模型的解码器进行监督学习。
2.根据权利要求1所述的基于多任务训练的端到端图像文本翻译方法,其特征在于,
若所述输入数据为文本,预处理包括:标点符号标准化、分词以及将低频词替换为特殊标记;所述低频词为未出现在词表中的词汇;
若所述输入数据为图像,预处理包括:图像尺寸变换、图像文本检测、分割、矫正;
若所述输入数据为视频,预处理过程为:将视频分帧,并提取视频的帧图像;将帧图像按照图像预处理方法进行预处理。
3.根据权利要求1所述的基于多任务训练的端到端图像文本翻译方法,其特征在于,所述编码器基于双向循环神经网络构建;所述解码器基于注意力机制的循环神经网络构建。
4.根据权利要求1所述的基于多任务训练的端到端图像文本翻译方法,其特征在于,所述编码器-解码器为基于自注意力机制的编码器-解码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110306816.7/1.html,转载请声明来源钻瓜专利网。