[发明专利]一种基于低频词表示增强的汉越神经机器翻译的方法在审
申请号: | 202110280508.1 | 申请日: | 2021-03-16 |
公开(公告)号: | CN113051936A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 余正涛;杨福岸;高盛祥;王振晗;朱俊国 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/53;G06F40/289 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 低频 词表 增强 神经 机器翻译 方法 | ||
本发明涉及一种基于低频词表示增强的汉越神经机器翻译的方法,属于自然语言处理领域。神经机器翻译中的低频词是影响翻译模型性能的一个关键因素。由于低频词在数据集中出现的次数少,训练过程中低频词的表示不够准确,这一问题在低资源神经机器翻译任务中影响更为突出。本发明利用单语数据上下文信息来学习低频词的概率分布,并根据该分布重新计算低频词的词嵌入,然后在所得词嵌入的基础上重新训练Transformer模型,从而有效缓解了低频词表示不准确问题。本发明分别在汉‑越和越‑汉两个低资源翻译任务上进行实验,实验结果表明本发明提出的方法相对于基线模型分别在两个任务上提升了8.58%和6.06%。
技术领域
本发明涉及一种基于低频词表示增强的汉越神经机器翻译的方法,属于自然语言处理技术领域。
背景技术
词表示增强方法的核心是如何更准确的学习到更准确的词表示形式,其难点是如何表示低频词。一般情况下,关于词表示增强的方法大致有2种:(1)基于外部知识融入的方法。该方法通过融入先验知识,从而使单词具有更丰富的意思以达到增强词表示的目的;(2)基于内部知识增强的方法。该方法通过单语数据重新学习词的表示形式,使词的表示形式包含更丰富的翻译信息,从而使得词的表示更加准确。这2种方法都能在一定程度上增强词的表示形式,让增强后词语的意思更加贴合句子的含义,但并没有针对低频词表示增强的方法,因此不能解决低频词翻译不佳的问题。
发明内容
本发明提供了一种基于低频词表示增强的汉越神经机器翻译的方法,通过在Transformer翻译模型中引入语言模型与低频词词典来缓解低频词在神经机器翻译中表示不佳的问题。
本发明的技术方案是:一种基于低频词表示增强的汉越神经机器翻译的方法,包括如下:
Step1、收集汉越双语语料,并将收集到的语料进行预处理;
Step2、通过语言模型学习每个词的概率分布;
Step3、构建汉-越低频词词典;
Step4、利用Step3构建的汉-越低频词词典判断出翻译模型输入中的低频词,并利用Step2概率分布更新原有低频词的表征,从而得到翻译模型输入的新表征形式;
Step5、在Step4所得的表征形式的基础上重新训练Transformer翻译模型。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、通过将公开IWLST英语-越南语双语平行语料,经过语言学专家将英语译文为汉语,得到汉语-越南语平行语料;
Step1.2、对语料进行了清洗和分词处理,最终获得127,481对汉越双语平行数据;
Step1.3、使用结巴分词工具对中文语句进行分词,处理越南语使用tokenizer切开标点。
作为本发明的进一步方案,所述步骤Step2的具体步骤为:
Step2.1、对于词典中任何词w,概率分布为:
P(w)=(P1(w),P2(w),P3(w),...,P|V|(w),) (1)
满足:
Step2.2、语言模型来计算P(w)和V之前所有词的条件概率,对于一个句子中第t个词xt,有:
Pj(xt)=LM(wj|x<t) (3)。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110280508.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种点胶胶量检测方法和装置、点胶设备
- 下一篇:一种红外探测器像元电路