[发明专利]词对齐方法和词对齐设备在审
申请号: | 201410344476.7 | 申请日: | 2014-07-18 |
公开(公告)号: | CN105446958A | 公开(公告)日: | 2016-03-30 |
发明(设计)人: | 李中华;夏迎炬;孙健 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;吴琼 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对齐 方法 设备 | ||
1.一种词对齐方法,用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,包括:
将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;
利用映射模型,确定与所述源语言词向量对应的参考目标语言词向量;
计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及
将所计算的相似度作为特征,利用基于特征函数的词对齐模型,对齐所述源语言词语和所述目标语言词语。
2.如权利要求1所述的方法,其中利用转换模型进行所述转换,所述转换模型包括神经网络、潜在语义分析、潜在语义索引、潜在狄利克雷分布。
3.如权利要求2所述的方法,其中所述转换模型通过如下步骤训练得到:
分别获得所述源语言和所述目标语言的大规模单语语料;
利用所获得的大规模单语语料,训练所述转换模型,使得所述转换模型能够将所述源语言词语和所述目标语言词语转换为实数值向量,作为所述源语言词向量和所述目标语言词向量。
4.如权利要求3所述的方法,其中所述映射模型通过如下步骤训练得到:
获取已对齐的所述源语言和所述目标语言的双语句对;
利用所述转换模型,将所述双语句对中的词语转换为对应的词向量;
基于转换得到的词向量之间的对齐关系,训练所述映射模型,使得所述映射模型能够将源语言词向量映射为目标语言词向量。
5.如权利要求1所述的方法,其中所述映射模型包括线性转换模型和神经网络。
6.如权利要求1所述的方法,其中所述计算参考目标语言词向量与目标语言词向量之间的相似度包括:
计算在向量空间中所述参考目标语言词向量与所述目标语言词向量之间的距离或余弦夹角,作为相似度。
7.如权利要求1所述的方法,其中所述基于特征函数的词对齐模型包括:生成式词对齐模型、判别式词对齐模型、有监督的词对齐模型、无监督的词对齐模型。
8.一种词对齐设备,用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,包括:
转换模型,用于将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;
映射模型,用于确定与所述源语言词向量对应的参考目标语言词向量;
相似度计算装置,被配置为计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及
基于特征函数的词对齐模型,用于将所计算的相似度作为特征,对齐所述源语言词语和所述目标语言词语。
9.如权利要求8所述的设备,其中所述转换模型通过如下步骤训练得到:
分别获得所述源语言和所述目标语言的大规模单语语料;
利用所获得的大规模单语语料,训练所述转换模型,使得所述转换模型能够将所述源语言词语和所述目标语言词语转换为实数值向量,作为所述源语言词向量和所述目标语言词向量。
10.如权利要求9所述的设备,其中所述映射模型通过如下步骤训练得到:
获取已对齐的所述源语言和所述目标语言的双语句对;
利用所述转换模型,将所述双语句对中的词语转换为对应的词向量;
基于转换得到的词向量之间的对齐关系,训练所述映射模型,使得所述映射模型能够将源语言词向量映射为目标语言词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410344476.7/1.html,转载请声明来源钻瓜专利网。