[发明专利]一种双向词语对齐方法及装置在审
申请号: | 201510998012.2 | 申请日: | 2015-12-25 |
公开(公告)号: | CN105630776A | 公开(公告)日: | 2016-06-01 |
发明(设计)人: | 孙茂松;柳春洋;刘洋;栾焕博;刘奕群;马少平 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双向 词语 对齐 方法 装置 | ||
1.一种双向词语对齐方法,其特征在于,包括:
A、构建源语言到目标语言的第一词语对齐模型和目标语言到源 语言的第二词语对齐模型;
B、利用一致性评估函数,融合所述第一词语对齐模型和第二词 语对齐模型,构建初始目标函数;
C、利用一致性评估函数,对所述第一词语对齐模型和第二词语 对齐模型进行联合训练,形成优化目标函数,并输出联合训练得到的 模型;
D、利用所述优化目标函数及联合训练得到的模型,对平行双语 句对进行词语对齐,得到双向词语对齐结果。
2.根据权利要求1所述的双向词语对齐方法,其特征在于,所述 步骤B前还包括步骤:
构建数据集以及对所述数据集进行预处理;
所述构建数据集包括收集平行双语句对,并将所述双语句对作为 训练语料;
所述对数据集进行预处理包括对数据集中的源语言和目标语言 文本中的句子切分成词、转换大小写和过滤无效字符。
3.根据权利要求2所述的双向词语对齐方法,其特征在于,所述 步骤B中的一致性评估函数包括用于对所述第一词语对齐模型和第二 词语对齐模型的词语对齐的一致性进行衡量的一致性评估函数一;
所述步骤C包括:
C1,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型 和第二词语对齐模型分别求解,得到源语言到目标语言的第一词语对 齐结果a1、目标语言到源语言的第二词语对齐结果a2;
C2,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语 对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性 得分;
C3,将数据集中所有平行双语句对的词语对齐一致性得分相加, 得到目标函数值;
C4,随机调整词语对齐连线,返回步骤C1-C3,重新计算目标函 数值;
C5,判断本次调整词语对齐连线后得到的目标函数值是否增长或 判断本次调整是否达到预设的调整次数;
若所述目标函数值不再增长或达到预设的调整次数,则输出调整 过程中得到的目标函数值最高时对应的第一词语对齐结果a1和第二 词语对齐结果a2,并执行步骤C6;
否则返回步骤C4;
C6,利用所述目标函数值最高时对应的第一词语对齐结果a1和第 二词语对齐结果a2,重新估计第一词语对齐模型和第二词语对齐模型 的模型参数,并返回步骤C1;重复执行步骤C1-C6,当迭代次数达到 预设的迭代次数时,输出优化目标函数及优化的模型参数,并输出联 合训练得到的模型。
4.根据权利要求3所述的双向词语对齐方法,其特征在于,所述 一致性评估函数一为:
Scorewa=2|a1∩a2|-|a1∪a2|;
其中,针对数据集中的句对(s,t),a1为通过第一词语对齐模型生 成的第一词语对齐结果,a2为通过第二词语对齐模型生成的第二词语 对齐结果,a1∩a2为第一词语对齐结果和第二词语对齐结果交集中连 线的数目,a1∪a2为第一词语对齐结果和第二词语对齐结果并集中连 线的数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510998012.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页加载的方法、装置及终端
- 下一篇:用于提供译文编辑器的设备和方法