[发明专利]依存关系对齐组件、依存关系对齐训练方法、设备及介质有效
申请号: | 201810987179.2 | 申请日: | 2018-08-28 |
公开(公告)号: | CN110874535B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 李博;赵宇;骆卫华 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F18/214;G06N3/08 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 贺琳 |
地址: | 开曼群岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 依存 关系 对齐 组件 训练 方法 设备 介质 | ||
1.一种依存关系对齐组件,其特征在于,其包括:
词对齐信息接收模块,用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息,其中,所述多个翻译结果包括由将所述第一语言语料翻译为第二语言所得到的原文文本和多个不同的译文文本形成的多个双语句对,以及由将所述第二语言语料翻译为第一语言所得到的原文文本和多个不同的译文文本形成的多个双语句对,所述多个词对齐关系信息包括将所述第一语言语料翻译为第二语言过程中的正向N个最佳Nbest翻译词对齐概率矩阵,以及将所述第二语言语料翻译为第一语言过程中的反向Nbest翻译词对齐概率矩阵;
依存树信息接收模块,用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树,所述多个句法依存树为多个第一句法依存树和多个第二句法依存树的总和,所述多个第一句法依存树由所述第一语言语料确定,所述多个第二句法依存树由所述第二语言语料确定;
对齐筛选模块,用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。
2.根据权利要求1所述的依存关系对齐组件,其特征在于,所述对齐筛选模块包括:
词对齐打分子模块,用于基于所述多个词对齐关系信息对所述多个翻译结果打分;
树对齐打分子模块,用于基于句法依存树的相似度对所述多个句法依存树打分。
3.根据权利要求1所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括:
词对齐相似度处理模块,用于基于所述多个词对齐关系信息得到针对所述多个翻译结果的双向翻译词对齐相似度。
4.根据权利要求3所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括树到树预测模块,
所述树到树预测模块用于基于所述双向翻译词对齐相似度以及所述第一语言语料对应的第一句法依存树,预测第二句法依存树;
所述树到树预测模块还用于基于所述双向翻译词对齐相似度以及所述第二语言语料对应的第二句法依存树,预测第一句法依存树。
5.根据权利要求1所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括:
句法到语义转换模块,用于将目标句法依存树转换为对应的三元组。
6.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息来自预设的机器翻译系统。
7.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和所述第二语言语料各自的多个句法依存树来自预设的依存句法分析组件。
8.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和所述第二语言语料为互译的双语语料。
9.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件基于神经网络实现。
10.根据权利要求2所述的依存关系对齐组件,其特征在于,所述词对齐打分子模块包括:
词对齐相似度计算单元,用于计算所述正向N个最佳Nbest翻译词对齐概率矩阵与所述反向Nbest翻译词对齐概率矩阵的相似度,作为双向翻译词对齐相似度;
词对齐相似度打分单元,用于对多个双向翻译词对齐相似度打分,相似度高者对应的得分高。
11.根据权利要求1所述的依存关系对齐组件,其特征在于,所述正向N个最佳Nbest翻译词对齐概率矩阵采用神经网络机器翻译NMT中将所述第一语言语料翻译为第二语言过程中的多个注意力Attention矩阵;所述反向Nbest翻译词对齐概率矩阵采用NMT中将所述第二语言语料翻译为第一语言过程中的多个注意力Attention矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810987179.2/1.html,转载请声明来源钻瓜专利网。