[发明专利]一种双向词语对齐方法及装置在审

专利信息
申请号: 201510998012.2 申请日: 2015-12-25
公开(公告)号: CN105630776A 公开(公告)日: 2016-06-01
发明(设计)人: 孙茂松;柳春洋;刘洋;栾焕博;刘奕群;马少平 申请(专利权)人: 清华大学
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 李相雨
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 双向 词语 对齐 方法 装置
【权利要求书】:

1.一种双向词语对齐方法,其特征在于,包括:

A、构建源语言到目标语言的第一词语对齐模型和目标语言到源 语言的第二词语对齐模型;

B、利用一致性评估函数,融合所述第一词语对齐模型和第二词 语对齐模型,构建初始目标函数;

C、利用一致性评估函数,对所述第一词语对齐模型和第二词语 对齐模型进行联合训练,形成优化目标函数,并输出联合训练得到的 模型;

D、利用所述优化目标函数及联合训练得到的模型,对平行双语 句对进行词语对齐,得到双向词语对齐结果。

2.根据权利要求1所述的双向词语对齐方法,其特征在于,所述 步骤B前还包括步骤:

构建数据集以及对所述数据集进行预处理;

所述构建数据集包括收集平行双语句对,并将所述双语句对作为 训练语料;

所述对数据集进行预处理包括对数据集中的源语言和目标语言 文本中的句子切分成词、转换大小写和过滤无效字符。

3.根据权利要求2所述的双向词语对齐方法,其特征在于,所述 步骤B中的一致性评估函数包括用于对所述第一词语对齐模型和第二 词语对齐模型的词语对齐的一致性进行衡量的一致性评估函数一;

所述步骤C包括:

C1,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型 和第二词语对齐模型分别求解,得到源语言到目标语言的第一词语对 齐结果a1、目标语言到源语言的第二词语对齐结果a2

C2,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语 对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性 得分;

C3,将数据集中所有平行双语句对的词语对齐一致性得分相加, 得到目标函数值;

C4,随机调整词语对齐连线,返回步骤C1-C3,重新计算目标函 数值;

C5,判断本次调整词语对齐连线后得到的目标函数值是否增长或 判断本次调整是否达到预设的调整次数;

若所述目标函数值不再增长或达到预设的调整次数,则输出调整 过程中得到的目标函数值最高时对应的第一词语对齐结果a1和第二 词语对齐结果a2,并执行步骤C6;

否则返回步骤C4;

C6,利用所述目标函数值最高时对应的第一词语对齐结果a1和第 二词语对齐结果a2,重新估计第一词语对齐模型和第二词语对齐模型 的模型参数,并返回步骤C1;重复执行步骤C1-C6,当迭代次数达到 预设的迭代次数时,输出优化目标函数及优化的模型参数,并输出联 合训练得到的模型。

4.根据权利要求3所述的双向词语对齐方法,其特征在于,所述 一致性评估函数一为:

Scorewa=2|a1∩a2|-|a1∪a2|;

其中,针对数据集中的句对(s,t),a1为通过第一词语对齐模型生 成的第一词语对齐结果,a2为通过第二词语对齐模型生成的第二词语 对齐结果,a1∩a2为第一词语对齐结果和第二词语对齐结果交集中连 线的数目,a1∪a2为第一词语对齐结果和第二词语对齐结果并集中连 线的数目。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510998012.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top