[发明专利]一种基于提示的机器翻译方法在审
申请号: | 202211347974.8 | 申请日: | 2022-10-31 |
公开(公告)号: | CN115906878A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 迟雨桐;冯少辉;李鹏 | 申请(专利权)人: | 北京中科智加科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/0455;G06N3/08 |
代理公司: | 北京天达知识产权代理事务所有限公司 11386 | 代理人: | 庞许倩 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 提示 机器翻译 方法 | ||
本发明涉及一种基于提示的机器翻译方法,属于自然语言处理技术领域,解决了现有技术中机器翻译模型对于名词和专有名词翻译不准,漏翻、错翻的问题。通过构建待翻译文本中的名词集合及名词译文集合,进一步得到翻译模型的输入文本及翻译模型的调节矩阵;使用翻译模型对翻译模型的输入文本进行翻译,使用调节矩阵M调节模型的注意力计算,最终输出译文。基于包含名词译文提示的输入数据以及调节矩阵的调节,一定程度上保证了翻译模型名词翻译的准确性,解决了名词漏译和错译的问题,实现了机器翻译模型名词翻译准确性的提高。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于提示的机器翻译方法。
背景技术
机器翻译是人工智能的重要方向之一,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。随着经济全球化及互联网的飞速发展,机器翻译技术在促进各国之间政治、经济、文化交流等方面起到越来越重要的作用,因此,研究机器翻译技术具有重要现实意义。
机器翻译技术提出之初,使用的方法是基于统计学的统计机器翻译(SMT,Statistics-based Machine Translation),这种方法把翻译看作一个概率问题,直接根据统计结果进行歧义消解处理和译文选择,从而避开了语言理解的难题。但是由于语料的选择和处理工程量巨大,通用领域的机器翻译系统很少以统计方法为主。近年来,被广泛使用的基于深度学习网络的神经网络机器翻译(NMT,Neural Machine Translation),多层的网络结构可以很好地学习原文本的上下文信息、提取语义特征,生成更加流畅、规范的译文,使得机器翻译质量实现了“跃进式”的提升。
然而,基于深度学习的方法也存在一些缺陷,其中最主要的就是名词和专有名词翻译不准的问题。名词和专有名词翻译不准包括两方面,漏译(即直接跳过某个或某段名词不翻译)和错译(即翻译错误),其中,漏译问题在翻译小语种及训练样本较少时尤其严重。由于目前的机器翻译模型均存在对于名词和专有名词翻译不准,漏翻、错翻的问题,因此亟需确保名词翻译准确性的机器翻译模型。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于提示的机器翻译方法,用以解决现有机器翻译模型对于名词和专有名词翻译不准,漏翻、错翻的问题。
一方面,本发明实施例提供了一种基于提示的机器翻译方法,包括以下步骤:
获取待翻译文本x,识别得到待翻译文本中包括的名词集合Sword;
获得所述名词集合Sword中所有名词对应的名词译文,组成译文集合Sword-trans;
待翻译文本x、名词集合Sword和名词译文集合Sword-trans通过数据构建,得到翻译模型的输入文本xinput及翻译模型的调节矩阵M;其中,所述输入文本包括提示,所述提示为名词译文集合Sword-trans中的所有译文;
使用翻译模型对xinput进行翻译,使用调节矩阵M调节模型的注意力计算,最终输出译文。
进一步的,所述数据构建,包括如下步骤:
对所述待翻译文本进行数据清洗,得到清洗后的文本x0;
所述文本x0其后依次拼接名词译文集合Sword-trans中的所有译文,得到翻译模型的输入文本xinput;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科智加科技有限公司,未经北京中科智加科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211347974.8/2.html,转载请声明来源钻瓜专利网。