[发明专利]利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法有效
申请号: | 202110688705.7 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113343719B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 曹海龙;杨沐昀;赵铁军;苏子超 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06F40/284;G06N20/00 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 孙莉莉 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 不同 嵌入 模型 进行 协同 训练 监督 双语 翻译 词典 获取 方法 | ||
1.一种利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,其特征在于,包括以下步骤:
步骤S101,获取两种不同的词嵌入训练模型,即模型A和模型B,在源语言以及目标语言的单语语料上进行训练,得到所述模型A训练出的源语言和目标语言的第一词嵌入以及所述模型B训练出的源语言和目标语言的第二词嵌入;
步骤S102,建立两个无监督的双语翻译词典获取进程,即进程A和进程B,并对所述进程A和所述进程B进行初始化操作,获得所述进程A的第一初始翻译词典和所述进程B的第二初始翻译词典;
步骤S103,使用所述第一词嵌入和所述第一初始翻译词典进行自学习,以更新所述第一词嵌入,同时使用所述第二词嵌入和所述第二初始翻译词典进行自学习,以更新所述第二词嵌入;
步骤S104,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,再通过协同训练对所述双语翻译词典A和所述双语翻译词典B进行优化过滤,得到新双语翻译词典A和新双语翻译词典B;
步骤S105,迭代执行所述步骤S103和所述步骤S104,直至两个训练进程均观测指标收敛,分别得到最优双语翻译词典A和最优双语翻译词典B,具体包括:
步骤S1051,重复进行所述步骤S103和所述步骤S104,直至两个训练进程均观测指标收敛,再次更新所述第一词嵌入,再次更新所述第二词嵌入;
步骤S1052,计算所述步骤S1051再次更新后的第一词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最优双语翻译词典A,同时计算所述步骤S1051再次更新后的第二词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最优双语翻译词典B。
2.根据权利要求1所述的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,其特征在于,所述步骤S104具体包括:
步骤S1041,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,再建立所述双语翻译词典A和所述双语翻译词典B的双语词汇数字索引表;
步骤S1042,利用所述双语翻译词典A、所述双语翻译词典B以及所述双语词汇数字索引表进行词典比较,去除所述双语翻译词典A和所述双语翻译词典B非共有的翻译对,保留二者的相同部分建立所述新双语翻译词典A和所述新双语翻译词典B。
3.根据权利要求1所述的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,其特征在于,不仅限于两种不同的词嵌入训练模型,还包括模型A、模型B和模型C或模型A、模型B、模型C和模型D。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110688705.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动更新移动机器人地图的方法及装置
- 下一篇:水杨酸的高效合成方法