[发明专利]一种基于提示的机器翻译方法在审

申请号：	202211347974.8	申请日：	2022-10-31
公开（公告）号：	CN115906878A	公开（公告）日：	2023-04-04
发明（设计）人：	迟雨桐;冯少辉;李鹏	申请（专利权）人：	北京中科智加科技有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06N3/0455;G06N3/08
代理公司：	北京天达知识产权代理事务所有限公司 11386	代理人：	庞许倩
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于提示机器翻译方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于提示的机器翻译方法，属于自然语言处理技术领域，解决了现有技术中机器翻译模型对于名词和专有名词翻译不准，漏翻、错翻的问题。通过构建待翻译文本中的名词集合及名词译文集合，进一步得到翻译模型的输入文本及翻译模型的调节矩阵；使用翻译模型对翻译模型的输入文本进行翻译，使用调节矩阵M调节模型的注意力计算，最终输出译文。基于包含名词译文提示的输入数据以及调节矩阵的调节，一定程度上保证了翻译模型名词翻译的准确性，解决了名词漏译和错译的问题，实现了机器翻译模型名词翻译准确性的提高。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于提示的机器翻译方法。

背景技术

机器翻译是人工智能的重要方向之一，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。随着经济全球化及互联网的飞速发展，机器翻译技术在促进各国之间政治、经济、文化交流等方面起到越来越重要的作用，因此，研究机器翻译技术具有重要现实意义。

机器翻译技术提出之初，使用的方法是基于统计学的统计机器翻译(SMT，Statistics-based Machine Translation)，这种方法把翻译看作一个概率问题，直接根据统计结果进行歧义消解处理和译文选择，从而避开了语言理解的难题。但是由于语料的选择和处理工程量巨大，通用领域的机器翻译系统很少以统计方法为主。近年来，被广泛使用的基于深度学习网络的神经网络机器翻译(NMT，Neural Machine Translation)，多层的网络结构可以很好地学习原文本的上下文信息、提取语义特征，生成更加流畅、规范的译文，使得机器翻译质量实现了“跃进式”的提升。

然而，基于深度学习的方法也存在一些缺陷，其中最主要的就是名词和专有名词翻译不准的问题。名词和专有名词翻译不准包括两方面，漏译(即直接跳过某个或某段名词不翻译)和错译(即翻译错误)，其中，漏译问题在翻译小语种及训练样本较少时尤其严重。由于目前的机器翻译模型均存在对于名词和专有名词翻译不准，漏翻、错翻的问题，因此亟需确保名词翻译准确性的机器翻译模型。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于提示的机器翻译方法，用以解决现有机器翻译模型对于名词和专有名词翻译不准，漏翻、错翻的问题。

一方面，本发明实施例提供了一种基于提示的机器翻译方法，包括以下步骤：

获取待翻译文本x，识别得到待翻译文本中包括的名词集合S_word；

获得所述名词集合S_word中所有名词对应的名词译文，组成译文集合S_word-trans；

待翻译文本x、名词集合S_word和名词译文集合S_word-trans通过数据构建，得到翻译模型的输入文本x_input及翻译模型的调节矩阵M；其中，所述输入文本包括提示，所述提示为名词译文集合S_word-trans中的所有译文；

使用翻译模型对x_input进行翻译，使用调节矩阵M调节模型的注意力计算，最终输出译文。

进一步的，所述数据构建，包括如下步骤：

对所述待翻译文本进行数据清洗，得到清洗后的文本x₀；

所述文本x₀其后依次拼接名词译文集合S_word-trans中的所有译文，得到翻译模型的输入文本x_input；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载