[发明专利]机器翻译方法、装置及存储介质在审
申请号: | 202310319446.X | 申请日: | 2023-03-22 |
公开(公告)号: | CN116468051A | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 李宗耀;魏代猛;商恒超;郭嘉鑫;赵艳青 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京格罗巴尔知识产权代理事务所(普通合伙) 11406 | 代理人: | 项军花 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 方法 装置 存储 介质 | ||
本申请涉及人工智能技术领域,尤其涉及一种机器翻译方法、装置及存储介质。所述方法包括:获取源语言的原文信息;根据目标显示区域的区域信息和原文信息,确定目标译文长度,目标显示区域为用于显示译文信息的区域;根据原文信息和目标译文长度,调用机器翻译模型输出得到目标语言的目标译文信息,目标语言不同于源语言,目标译文信息的长度小于或等于目标译文长度;在目标显示区域中显示目标译文信息。本申请实施例通过根据目标显示区域的区域信息和原文信息确定目标译文长度,从而生成长度可控的目标译文信息,解决了相关技术中译文显示效果不佳的问题,可以适配不同的显示区域,保证了机器翻译结果的显示效果。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种机器翻译方法、装置及存储介质。
背景技术
目前基于神经网络的机器翻译技术取得了突破性进展,并超越了传统的统计机器翻译,成为主流的机器翻译技术。但是,目前的翻译系统并没有对译文长度进行有效控制,导致在模型输出完译文前,译文的长度是不可知的。
随着全场景、可穿戴设备的普及,各种设备的屏幕显示大小、各种应用的显示区域多种多样,对于翻译结果的呈现提出了新的要求,像手表、增强现实(Augmented Reality,AR)眼镜等显示屏幕小的设备,可供显示的区域面积较小,需要展示的信息更加密集,翻译的结果要短一些;像平板、智慧屏等屏幕大的设备,有充分的显示区域面积,则对翻译结果的长度要求不高。所以针对全场景设备,需要一种可控译文长度的机器翻译系统,能够根据需要生成长度可控的译文。一个句子的表达方式多种多样,通过句式的变化、实体的简写和别名、语句表达上的省略等手段,可以做到在不损失句子质量的情况下,对译文长度做到可控。
相关技术中,针对控制译文长度的问题,可以采用如下方法:在模型训练阶段,根据双语数据中每句话的目标语言和源语言的字符数比值,通过设置两个阈值:上限阈值Tmax,下限阈值Tmin,将训练数据中每对句子根据如下规则分成三类:比值小于Tmin的数据在源语言句首增加标签short。比值大于Tmax的数据在源语言句首增加标签long。比值在Tmin和Tmax之间的数据在源语言句首增加标签norm。也即是将训练数据根据长度比值划分为三个领域,将控制译文长度的问题转换为领域适配问题。
在模型推理解码即翻译阶段,根据实际需求,在源语言句首添加不同类型的标签进行解码。short标签会使得模型倾向于解码出长度较短的句子,normal标签会使得模型倾向于解码出长度相当的句子,long标签会使得模型倾向于解码出长度较长的句子。
但是在上述方法中,虽然不同的标签能够翻译出长度不同的译文,但是依然不能对译文的长度做到准确控制。
发明内容
有鉴于此,提出了一种机器翻译方法、装置及存储介质。本申请实施例通过根据目标显示区域的区域信息和原文信息确定目标译文长度,从而生成长度可控的目标译文信息,解决了相关技术中译文显示效果不佳的问题,可以适配不同的显示区域,保证了机器翻译结果的显示效果。
第一方面,本申请的实施例提供了一种机器翻译方法,所述方法包括:
获取源语言的原文信息;
根据目标显示区域的区域信息和所述原文信息,确定目标译文长度,所述目标显示区域为用于显示译文信息的区域;
根据所述原文信息和所述目标译文长度,调用机器翻译模型输出得到目标语言的目标译文信息,所述目标语言不同于所述源语言,所述目标译文信息的长度小于或等于所述目标译文长度;
在所述目标显示区域中显示所述目标译文信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310319446.X/2.html,转载请声明来源钻瓜专利网。