[发明专利]融入双语词典的无监督汉-越神经机器翻译方法在审

专利信息
申请号: 202011224944.9 申请日: 2020-11-05
公开(公告)号: CN112507732A 公开(公告)日: 2021-03-16
发明(设计)人: 余正涛;王可超;郭军军;王振晗;文永华;相艳 申请(专利权)人: 昆明理工大学
主分类号: G06F40/58 分类号: G06F40/58;G06F40/289;G06F40/242;G06N3/04;G06N3/08
代理公司: 昆明人从众知识产权代理有限公司 53204 代理人: 何娇
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融入 双语 词典 监督 神经 机器翻译 方法
【权利要求书】:

1.融入双语词典的无监督汉-越神经机器翻译方法,其特征在于:所述方法包括:

Step1、分别收集汉语、越南语、英语的单语语料,并将收集到的语料进行预处理;

Step2、利用基于英语枢轴的方法从单语中学习汉越双语词典;

Step3、利用Step2构建的汉越双语词典初始化翻译模型;

Step4、利用Step3训练的翻译模型,翻译单语句子,然后对翻译的句子加噪,训练栈式自编码器,目标函数使模型能够更好学习编码器和解码器;

Step5、将通过训练学习到的编码器和解码器的参数给翻译模型,进一步来完成迭代,以提高翻译模型的性能。

2.根据权利要求1所述的融入双语词典的无监督汉-越神经机器翻译方法,其特征在于:所述步骤Step1的具体步骤为:

Step1.1、通过编写网络爬虫程序,收集整理汉语、越南语、英语单语语料;

Step1.2、将网络上爬取的语料进行过滤、去重、删除较短语句操作,得到高质量的单语句子;

Step1.3、利用分词工具分别对三种单语语料进行分词处理。

3.根据权利要求1所述的融入双语词典的无监督汉-越神经机器翻译方法,其特征在于:所述步骤Step2的具体步骤为:

Step2.1、利用基于种子词典的方法将汉越词向量分别对齐到英语词向量空间;

Step2.2、在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系;

Step2.3、通过计算映射后的源语言词向量和目标语言词向量抽取汉-越词向量,构建汉-越双语词典。

4.根据权利要求1所述的融入双语词典的无监督汉-越神经机器翻译方法,其特征在于:所述步骤Step3的具体步骤为:

Step3.1、在只使用单语语料的无监督机器翻译的基础上,使用汉越双语词典初始化翻译模型,学习到一个汉越词翻译模型,使得翻译结果比原词翻译模型具有更强的挖掘汉语、越南语单语语料中的跨语言信息的能力。

5.根据权利要求1所述的融入双语词典的无监督汉-越神经机器翻译方法,其特征在于:所述步骤Step4的具体步骤为:

Step4.1、利用训练好的词翻译模型翻译单语句子,并对翻译的句子进行加噪声处理;

Step4.2、使用翻译后加噪处理的句子训练栈式自编码器,目标函数使模型能够更好学习编码器和解码器,使得它们能够从加噪的翻译中重构原句。

6.根据权利要求1所述的融入双语词典的无监督汉-越神经机器翻译方法,其特征在于:所述步骤Step5的具体步骤为:

Step5.1、通过加噪训练的栈式去噪自编码器将学习到的编码器和解码器的参数反馈给翻译模型,再次进行Step4的过程,进一步来完成迭代,以提高翻译模型的性能。

7.根据权利要求3所述的融入双语词典的无监督汉-越神经机器翻译方法,其特征在于:所述Step2.1中,将源句子与目标句子分别输入Fasttext模型中得到各自的词向量,将基于种子词典的方法分别学习汉-英、越-英的映射矩阵,将汉语词向量以及英语词向量分别对齐到英语词向量共享空间中,得到汉-英词向量以及越-英词向量,分别重新定义为源词向量以及目标词向量。

8.根据权利要求3所述的融入双语词典的无监督汉-越神经机器翻译方法,其特征在于:所述Step2.2中,将构建一个包含生成器G与判别器D的对抗网络,将源词向量输入对抗网络,调节源语言词向量到目标语言词向量的映射矩阵,在英语词向量共享空间中,将映射后的源语言词向量与目标语言词向量输入判别器D,判别词向量来源,将不断迭代生成器G与判别器D模型参数,通过无监督选择标准获取一个模型。

9.根据权利要求3所述的融入双语词典的无监督汉-越神经机器翻译方法,其特征在于:所述Step2.3中,通过NN/CSLS距离公式计算映射后的源语言词向量与目标语言词向量抽取汉-越词向量构建汉-越双语词典。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011224944.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top