[发明专利]一种基于低频词表示增强的汉越神经机器翻译的方法在审

申请号：	202110280508.1	申请日：	2021-03-16
公开（公告）号：	CN113051936A	公开（公告）日：	2021-06-29
发明（设计）人：	余正涛;杨福岸;高盛祥;王振晗;朱俊国	申请（专利权）人：	昆明理工大学
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/53;G06F40/289
代理公司：	昆明人从众知识产权代理有限公司 53204	代理人：	何娇
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于低频词表增强神经机器翻译方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于低频词表示增强的汉越神经机器翻译的方法，属于自然语言处理领域。神经机器翻译中的低频词是影响翻译模型性能的一个关键因素。由于低频词在数据集中出现的次数少，训练过程中低频词的表示不够准确，这一问题在低资源神经机器翻译任务中影响更为突出。本发明利用单语数据上下文信息来学习低频词的概率分布，并根据该分布重新计算低频词的词嵌入，然后在所得词嵌入的基础上重新训练Transformer模型，从而有效缓解了低频词表示不准确问题。本发明分别在汉‑越和越‑汉两个低资源翻译任务上进行实验，实验结果表明本发明提出的方法相对于基线模型分别在两个任务上提升了8.58％和6.06％。

技术领域

本发明涉及一种基于低频词表示增强的汉越神经机器翻译的方法，属于自然语言处理技术领域。

背景技术

词表示增强方法的核心是如何更准确的学习到更准确的词表示形式，其难点是如何表示低频词。一般情况下，关于词表示增强的方法大致有2种：(1)基于外部知识融入的方法。该方法通过融入先验知识，从而使单词具有更丰富的意思以达到增强词表示的目的；(2)基于内部知识增强的方法。该方法通过单语数据重新学习词的表示形式，使词的表示形式包含更丰富的翻译信息，从而使得词的表示更加准确。这2种方法都能在一定程度上增强词的表示形式，让增强后词语的意思更加贴合句子的含义，但并没有针对低频词表示增强的方法，因此不能解决低频词翻译不佳的问题。

发明内容

本发明提供了一种基于低频词表示增强的汉越神经机器翻译的方法，通过在Transformer翻译模型中引入语言模型与低频词词典来缓解低频词在神经机器翻译中表示不佳的问题。

本发明的技术方案是：一种基于低频词表示增强的汉越神经机器翻译的方法，包括如下：

Step1、收集汉越双语语料，并将收集到的语料进行预处理；

Step2、通过语言模型学习每个词的概率分布；

Step3、构建汉-越低频词词典；

Step4、利用Step3构建的汉-越低频词词典判断出翻译模型输入中的低频词，并利用Step2概率分布更新原有低频词的表征，从而得到翻译模型输入的新表征形式；

Step5、在Step4所得的表征形式的基础上重新训练Transformer翻译模型。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、通过将公开IWLST英语-越南语双语平行语料，经过语言学专家将英语译文为汉语，得到汉语-越南语平行语料；

Step1.2、对语料进行了清洗和分词处理，最终获得127,481对汉越双语平行数据；

Step1.3、使用结巴分词工具对中文语句进行分词，处理越南语使用tokenizer切开标点。