[发明专利]基于多任务训练的端到端图像文本翻译方法、系统、装置有效
申请号: | 202110306816.7 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113011202B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 赵阳;马聪;张亚萍;周玉 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/42;G06N3/0455;G06N3/092;G06N3/044;G06N5/022 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 任务 训练 端到端 图像 文本 翻译 方法 系统 装置 | ||
本发明属于自然语言处理技术领域,具体涉及一种基于多任务训练的端到端图像文本翻译方法,旨在解决现有的图像文本翻译模型因缺乏训练数据、模型结构设计,导致翻译性能较差的问题。本发明方法包括:获取待翻译的数据,作为输入数据;对输入数据进行预处理,预处理后,输入预构建的图像文本翻译模型,得到所述输入数据对应的翻译结果;图像文本翻译模型包括特征提取器、编码器‑解码器。本发明提高了图像文本翻译性能。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于多任务训练的端到端图像文本翻译方法、系统、装置。
背景技术
图像文本翻译是利用计算机系统自动地将图片或视频中包含的源语言翻译为目标语言。图像文本翻译技术能够快速、有效地帮助人们翻译和理解图片、视频中的文本内容。该技术可以将图像、视频中的一种语言的文本快速地翻译到不同语言,来促进使用不同语言的人们的理解。
目前常用的图像文本翻译的架构是将图像文本识别系统同机器翻译系统进行系统级联来实现对图片中的源端语言进行翻译。然而系统级联的两个子任务在各自的训练数据集上进行独立训练,导致子任务的训练领域不一致。同时,系统级联在系统部署时,需要部署两个分立的模型,增加了部署的复杂度,且模型存储空间复杂度高,模型解码时间复杂度高。端到端图像文本翻译系统虽然模型空间复杂度小,但是由于没有专门针对端到端图像文本翻译模型结构设计以及缺乏训练数据等问题,现阶段的端到端图像文本翻译模型的性能依然较差。针对上述问题,本发明提出了一种基于多任务训练的端到端图像文本翻译方法。
发明内容
为了解决现有技术中的上述问题,即为了解决现有的图像文本翻译模型因缺乏训练数据、模型结构设计,导致翻译性能较差的问题,本发明提出了一种基于多任务训练的端到端图像文本翻译方法,该方法包括:
步骤S10,获取待翻译的数据,作为输入数据;所述输入数据包括图像、视频、文本;
步骤S20,对所述输入数据进行预处理,预处理后,输入预构建的图像文本翻译模型,得到所述输入数据对应的翻译结果;
所述图像文本翻译模型包括特征提取器、编码器-解码器;所述图像文本翻译模型其训练方法为:
A10,获取训练样本数据及其对应的翻译结果真值标签;所述训练样本数据包括图像、视频、文本;
A20,对所述训练样本数据进行预处理,得到预处理数据;并提取所述预处理数据的特征;
A30,将提取的特征输入编码器-解码器中,得到训练样本数据对应的翻译预测结果;
A40,计算翻译预测结果、翻译结果真值标签的损失值,并将图像、视频、文本不同类别的训练样本数据对应的损失值进行加权求和,作为总损失;基于所述总损失更新图像文本翻译模型的模型参数。
在一些优选的实施方式中,若所述输入数据为文本,预处理包括:标点符号标准化、分词以及将低频词替换为特殊标记;所述低频词为未出现在词表中的词汇;
若所述输入数据为图像,预处理包括:图像尺寸变换、图像文本检测、分割、矫正;
若所述输入数据为视频,预处理过程为:将视频分帧,并提取视频的帧图像;将帧图像按照图像预处理方法进行预处理。
在一些优选的实施方式中,步骤A20中“提取所述预处理数据的特征”,其方法为:
若所述输入数据为图像/视频,提取过程为:通过基于残差连接的卷积神经网络构建的特征提取器提取预处理数据的特征;
若所述输入数据为文本,提取过程为:通过词嵌入模型对所述预处理数据进行向量化表示。
在一些优选的实施方式中,所述编码器基于双向循环神经网络构建;所述解码器基于注意力机制的循环神经网络构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110306816.7/2.html,转载请声明来源钻瓜专利网。