[发明专利]平行句对的筛选方法和系统有效

专利信息
申请号: 201510927066.X 申请日: 2015-12-14
公开(公告)号: CN105512114B 公开(公告)日: 2018-06-15
发明(设计)人: 孙茂松;张檬;刘洋;栾焕博 申请(专利权)人: 清华大学
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 李相雨
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种平行句对的筛选方法和系统,该方法包括:将每一待筛句对中的源语言语句和目标语言语句均切分成词;利用双语词向量模型确定切分得到的每一个词的词向量;计算源语言语句中每一个词在该源语言语句中的权重值;计算目标语言语句中每一个词在该目标语言语句中的权重值;建立一目标函数;计算目标函数的最优解,并根据最优解确定该待筛句对的泥土移动距离最小值;根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据平行句对筛选标准进行平行句对的筛选。本发明针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料。 1
搜索关键词: 筛选 平行 目标语言语句 源语言语句 双语语料 语言语句 最优解 权重 泥土 计算目标函数 最小值确定 计算目标 目标函数 向量模型 词向量 计算源 互译 语料 粗糙 互联网
【主权项】:
1.一种平行句对的筛选方法,其特征在于,包括:

将每一待筛句对中的源语言语句和目标语言语句均切分成词;

利用双语词向量模型确定切分得到的每一个词的词向量;

计算所述源语言语句中每一个词在该源语言语句中的权重值;

计算所述目标语言语句中每一个词在该目标语言语句中的权重值;

建立一目标函数,其中:

该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量,所述转移量是指从一个词向量转移到另一个词向量间的迁移量;

该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;

该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和、及所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;

计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离最小值;

根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。

2.根据权利要求1所述的方法,其特征在于,还包括:

将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。

3.根据权利要求1所述的方法,其特征在于,所述利用双语词向量模型确定切分得到的每一个词的词向量,包括:

建立数据集,该数据集中包括单语训练集和双语训练集;

利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;

从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。

4.根据权利要求3所述的方法,其特征在于,还包括:

将根据所述平行句对筛选标准筛选出的平行句对加入所述双语训练集中。

5.根据权利要求1所述的方法,其特征在于,所述根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,包括:

根据所述若干个待筛句对的泥土移动距离设置筛选比例或设置筛选距离阈值,将所述筛选比例或所述筛选距离阈值作为所述平行句对筛选标准。

6.根据权利要求1所述的方法,其特征在于,采用下式计算目标语言语句或源语言语句中第i个词的权重值:

其中,ti为目标语言语句中第i个词的权重值,si为源语言语句中第i个词的权重值,TF(i)为相应语句中第i个词的词频,IDF(i)为所述相应语句中第i个词的逆文档频率,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量。

7.根据权利要求1所述的方法,其特征在于,

所建立的目标函数为:

该目标函数的约束条件包括:

wij≥0

其中,d为泥土移动距离的最小值,cij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的距离,wij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的转移量,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量,ti为目标语言语句中第i个词的权重值,sj为源语言语句中第j个词的权重值。

8.一种平行句对的筛选系统,其特征在于,包括:

切分模块,用于将每一待筛句对中的源语言语句和目标语言语句均切分成词;

词向量确定模块,用于利用双语词向量模型确定切分得到的每一个词的词向量;

第一计算模块,用于计算所述源语言语句中每一个词在该源语言语句中的权重值;

第二计算模块,用于计算所述目标语言语句中每一个词在该目标语言语句中的权重值;

函数建立模块,用于建立一目标函数,其中:

该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量,所述转移量是指从一个词向量转移到另一个词向量间的迁移量;

该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;

该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和,所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;

第三计算模块,用于计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离;<

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510927066.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top