首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种双向词语对齐方法及装置在审

申请号：	201510998012.2	申请日：	2015-12-25
公开（公告）号：	CN105630776A	公开（公告）日：	2016-06-01
发明（设计）人：	孙茂松;柳春洋;刘洋;栾焕博;刘奕群;马少平	申请（专利权）人：	清华大学
主分类号：	G06F17/28	分类号：	G06F17/28
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	李相雨
地址：	100084 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种双向词语对齐方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种双向词语对齐方法，其特征在于，包括：

A、构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型；

B、利用一致性评估函数，融合所述第一词语对齐模型和第二词语对齐模型，构建初始目标函数；

C、利用一致性评估函数，对所述第一词语对齐模型和第二词语对齐模型进行联合训练，形成优化目标函数，并输出联合训练得到的模型；

D、利用所述优化目标函数及联合训练得到的模型，对平行双语句对进行词语对齐，得到双向词语对齐结果。

2.根据权利要求1所述的双向词语对齐方法，其特征在于，所述步骤B前还包括步骤：

构建数据集以及对所述数据集进行预处理；

所述构建数据集包括收集平行双语句对，并将所述双语句对作为训练语料；

所述对数据集进行预处理包括对数据集中的源语言和目标语言文本中的句子切分成词、转换大小写和过滤无效字符。

3.根据权利要求2所述的双向词语对齐方法，其特征在于，所述步骤B中的一致性评估函数包括用于对所述第一词语对齐模型和第二词语对齐模型的词语对齐的一致性进行衡量的一致性评估函数一；

所述步骤C包括：

C1，针对数据集中的平行双语句对(s,t)，利用第一词语对齐模型和第二词语对齐模型分别求解，得到源语言到目标语言的第一词语对齐结果a₁、目标语言到源语言的第二词语对齐结果a₂；

C2，利用一致性评估函数一衡量第一词语对齐结果a₁和第二词语对齐结果a₂的对齐一致性，得到平行双语句对(s,t)的词语对齐一致性得分；

C3，将数据集中所有平行双语句对的词语对齐一致性得分相加，得到目标函数值；

C4，随机调整词语对齐连线，返回步骤C1-C3，重新计算目标函数值；

C5，判断本次调整词语对齐连线后得到的目标函数值是否增长或判断本次调整是否达到预设的调整次数；

若所述目标函数值不再增长或达到预设的调整次数，则输出调整过程中得到的目标函数值最高时对应的第一词语对齐结果a₁和第二词语对齐结果a₂，并执行步骤C6；

否则返回步骤C4；

C6，利用所述目标函数值最高时对应的第一词语对齐结果a₁和第二词语对齐结果a₂，重新估计第一词语对齐模型和第二词语对齐模型的模型参数，并返回步骤C1；重复执行步骤C1-C6，当迭代次数达到预设的迭代次数时，输出优化目标函数及优化的模型参数，并输出联合训练得到的模型。

4.根据权利要求3所述的双向词语对齐方法，其特征在于，所述一致性评估函数一为：

Score_wa＝2|a₁∩a₂|-|a₁∪a₂|；

其中，针对数据集中的句对(s,t)，a₁为通过第一词语对齐模型生成的第一词语对齐结果，a₂为通过第二词语对齐模型生成的第二词语对齐结果，a₁∩a₂为第一词语对齐结果和第二词语对齐结果交集中连线的数目，a₁∪a₂为第一词语对齐结果和第二词语对齐结果并集中连线的数目。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510998012.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种网页加载的方法、装置及终端
下一篇：用于提供译文编辑器的设备和方法

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top