[发明专利]一种跨语言词嵌入的方法、移动终端和计算机存储介质在审
申请号: | 202011175684.0 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112287692A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 唐丽萍;罗智泉 | 申请(专利权)人: | 香港中文大学(深圳) |
主分类号: | G06F40/42 | 分类号: | G06F40/42;G06F40/242;G06N3/04;G06N3/08 |
代理公司: | 深圳市深联知识产权代理事务所(普通合伙) 44357 | 代理人: | 黄立强 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 嵌入 方法 移动 终端 计算机 存储 介质 | ||
1.一种跨语言词嵌入的方法,其特征在于,所述方法包括:
将目标语言和源语言分别嵌入单语言词嵌入模型学习目标语言的第一词嵌入表征和源语言的第二词嵌入表征;
基于中间域采用对抗训练学习所述目标语言和所述源语言之间的线性映射;
根据自我学习的方法对所述线性映射进行微调。
2.根据权利要求1所述的方法,其特征在于,基于中间域采用对抗训练学习所述目标语言和所述源语言之间的线性映射的步骤包括:
基于循环生成对抗网络自动编码器的框架,将源语言空间和目标语言空间变换到源语言隐空间和目标语言隐空间;
所述循环生成对抗网络自动编码器中的生成器将所述源语言隐空间和所述目标语言隐空间的两个向量映射到中间语言空间,所述中间语言空间关联所述中间域;
所述循环生成对抗网络自动编码器中的判别器判别给定两个所述向量的来源,以实现对抗训练。
3.根据权利要求2所述的方法,其特征在于,所述循环生成对抗网络自动编码器中的生成器将所述源语言隐空间和所述目标语言隐空间的两个向量映射到中间语言空间,所述中间语言空间关联所述中间域的步骤包括:
预设域变量的概率密度函数;
设定生成器模型,所述循环生成对抗网络自动编码器包括第一生成器和第二生成器,所述第一生成器将所述源语言隐空间的第一向量映射到所述中间语言空间;
所述第二生成器将所述目标语言隐空间的第二向量映射到所述中间语言空间。
4.根据权利要求3所述的方法,其特征在于,所述循环生成对抗网络自动编码器中的生成器将所述源语言隐空间和所述目标语言隐空间的两个向量映射到中间语言空间,所述中间语言空间关联所述中间域的步骤还包括:
所述第一生成器和所述第二生成器均关联所述域变量,设定生成器模型,根据线性插值法和所述域变量将所述中间域生成为源域及目标域的线性组合。
5.根据权利要求4所述的方法,其特征在于,根据自我学习的方法对所述线性映射进行微调的步骤包括:
使用所述概率密度函数对所述域变量进行采样,利用目标函数进行反向传播;
更新所述循环生成对抗网络自动编码器中的两个判别器和两个生成器;
对所述生成器进行近似正交化后处理,求解当前词典下的最优线性变换得到学习结果,实现词迭代收敛;
根据自我学习时间表对所述学习结果进行微调。
6.根据权利要求5所述的方法,其特征在于,根据自我学习时间表对所述学习结果进行微调的步骤包括:
求解正交限制条件下的最小二乘法问题得到所述当前词典下的所述最优线性变换;
基于所述最优线性变换将所述源语言隐空间和所述目标语言隐空间的单词映射到所述中间语言空间;
寻找每个所述单词最近的词作为对应的翻译来更新词典。
7.根据权利要求5所述的方法,其特征在于,所述方法进一步包括:
所述循环生成对抗网络自动编码器的总损失包括对抗性损失,周期一致性损失和重建损失。
8.根据权利要求7所述的方法,其特征在于,所述重建损失来源两个所述判别器和两个所述生成器。
9.一种移动终端,其特征在于,所述移动终端包括相互耦接的处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于加载所述计算机程序并执行。
10.一种计算机存储介质,其上存有计算机程序,其特征在于,所述计算机程序用于实现上述权利要求1~8中任一项方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港中文大学(深圳),未经香港中文大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011175684.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能防作弊动态检测系统
- 下一篇:一种用于沉浸式内容的交互方法和系统