[发明专利]利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法有效
申请号: | 202110688705.7 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113343719B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 曹海龙;杨沐昀;赵铁军;苏子超 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06F40/284;G06N20/00 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 孙莉莉 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 不同 嵌入 模型 进行 协同 训练 监督 双语 翻译 词典 获取 方法 | ||
本发明公开了一种利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,包括:使用至少两种不同词嵌入模型在源语言和目标语言的单语语料上分别进行训练获得多组不同模型的词嵌入;按照词嵌入训练模型进行分组,并分别进行初始化得到对应初始词典;分别利用当前各模型相对应的词嵌入以及双语翻译词典进行自学习,以更新各个词嵌入分别利用更新后的词嵌入获取当前各自对应的双语翻译词典,并通过协同训练优化过滤提升各个双语翻译词典的置信度;重复第三、第四步直至训练结果收敛,并分别得到各个进程上的最终双语翻译词典。该方法解决了小语种语料资源匮乏的问题,提升了基于无监督学习的单语语料上获取双语翻译词典的无监督方法的效果。
技术领域
本发明涉及双语翻译词典的获取方法、无监督跨语言学习技术领域,特别涉及一种利用不同词嵌入模型进行协同训练的基于无监督学习的双语翻译词典获取方式。
背景技术
无监督的双语词典获取任务是无监督跨语言学习相关研究的一个细分方向,而无监督的跨语言学习任务致力于不使用任何额外的跨语言平行信号进行跨语言表示的学习,因此对于无监督跨语言学习的探索有助于从最基本的角度研究语言学习的特性以及内在原理,而且也更有利于研究单语语料库在跨语言学习中的作用,得到更具有普适性的跨语言学习模型。
语料库是由大量在真实情况下使用的语言信息集成的、可供计算机检索的、专门做研究使用的巨型资料库。一般来说,机器翻译相关研究使用的语料库是平行语料或可比语料,这是因为平行文本之间的一一对应关系以及可比语料库之间文本内容的相近都提供了充足的跨语言信息,这对于翻译相关研究来说有着极大的作用。
对于低资源场景来说,与平行语料库相比,单语语料是更为丰富且容易获取的资源。但是由于单语语料之间缺乏跨语言信息,使用单语语料来进行双语翻译词典的构造就变得极为困难。双语词典是构建机器翻译系统的基础性资源,所以为了机器翻译尤其是低资源语种上的相关研究的进一步发展,无监督的双语词典获取方法的研究和发展便有着极为重要的研究意义和实用价值。
目前的双语翻译词典的构建方法主要有以下几种:
(1)依赖语言学专家进行人工构筑的双语翻译词典,比如一些研究机构公布的常用语种上的双语翻译词典。这样的双语翻译词典来源于语言学家的人为劳动,因此词典的准确度是最好的,但这样的词典的构造需要大量的专业人员和时间,而且在信息数据爆炸的互联网时代,词典的更新速度很难跟得上信息的更新速度。而且对于一些较为生僻的语言对之间,也缺少相关的研究工作,所以很多低资源语种之间缺少双语翻译词典。
(2)平行语料库上双语词典获取的机器翻译方法。由于平行语料库的双语文本之间有着很强的对应关系,因此在平行语料库上进行文本对齐,并进一步获取双语翻译词典的目前来说已经有了非常成熟的机器翻译方法,比如说GIZA++等平行语料库的对齐方法,虽然比不上人工对齐的效果,但是平行语料库上的机器翻译文本对齐方法已经能得到准确率较高的双语翻译词典。但是另一方面,平行语料库也存在数量少的问题,尤其对于低资源语言对来说平行语料数据是十分匮乏的,因此利用平行语料库来获取双语翻译词典的方法也有着较大的局限性。
(3)单语语料库上双语词典的获取方法。单语语料库相对来说是较为广泛和充足的语料资源。但是不同语种的单语语料库之间几乎没有对应关系,因此单语语料库上的双语翻译词典构造任务缺乏足够的跨语言信息,从而使得单语语料库上的双语翻译词典获取的任务难度大大提升。目前单语语料库上的双语翻译词典获取方法包括使用种子词典作为跨语言信息补充的半监督方法以及基于对抗学习等模式的完全无监督方法。其中无监督方法在近年词嵌入技术进步的前提下处于发展和完善时期。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,该方法提升了基于无监督学习的单语语料上获取双语翻译词典的无监督方法的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110688705.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动更新移动机器人地图的方法及装置
- 下一篇:水杨酸的高效合成方法