[发明专利]一种无监督跨语言句对齐实现方法在审

专利信息
申请号: 202111130753.0 申请日: 2021-09-26
公开(公告)号: CN113779978A 公开(公告)日: 2021-12-10
发明(设计)人: 陈件;潘丽婷 申请(专利权)人: 上海一者信息科技有限公司
主分类号: G06F40/279 分类号: G06F40/279;G06F40/30;G06F40/194;G06F40/40
代理公司: 上海骁象知识产权代理有限公司 31315 代理人: 赵俊寅
地址: 200090 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 监督 语言 对齐 实现 方法
【权利要求书】:

1.一种无监督跨语言句对齐实现方法,其特征在于,包括如下步骤:

S100、无监督生成句向量;

S200、相似度计算

相似度是语义相似度、位置相似度和句长相似度的乘积(公式3),语义相似度为原文句向量和译文句向量的余弦距离(公式4),位置相似度为原文的句子位置和译文的句子位置的相对距离(公式5),句长相似度是原文句长占比和译文句子占比的差距(公式6):

SIMij=SEMij*POSij*LENij (3)

其中,SIMij表示原文第i个句向量和译文第j个句向量的相似度,SEMij表示原文第i个句向量和译文第j个句向量的语义相似度;

POSij表示原文第i个句向量和译文第j个句向量的位置相似度,vi表示原文第i个句向量,vj表示译文第j个句向量,cs表示原文的句数,ct表示译文的句数;α为超参数,限制位置相似度的权重;

LENij表示原文第i个句子的长度占比和译文第j个句子的长度占比的句长相似度,ls是原文所有句子的长度,lt是译文所有句子的长度,lsi是原文第i个句子的长度,ltj是译文第j个句子的长度;

S300、句匹配

S310、原文句向量和译文句向量使用双向最优匹配,即当原文第i个句向量的相似度最高是译文第j个句向量,同时译文第j个句向量的相似度最高是原文第i个句向量时,第i个原文句向量与第j个译文句向量匹配(公式7):

2.如权利要求1所述的无监督跨语言句对齐实现方法,其特征在于,S100还包括:

S110、将不同语言文本进行分词,使得原文、译文中的句子被分割为多个独立的词;

S120、根据分词结果,获取句子的向量。

3.如权利要求2所述的无监督跨语言句对齐实现方法,其特征在于,S110中,使用wordpiece算法对不同语言文本进行分词。

4.如权利要求2所述的无监督跨语言句对齐实现方法,其特征在于,S120还包括:

根据分词结果,加载distil-mBERT预训练模型,使用multi-head和self-attention输出6层隐藏向量,由于低层隐藏向量包含语法信息,高层隐藏向量包含语义信息,因此选取低层次隐藏向量和高层次隐藏向量的均值作为词向量(公式1);所有词向量相加,再除以词数得到词向量均值,作为句子的向量(公式2):

其中vw是词向量,vs是句子的向量,hlow是低层次隐藏向量,hhigh是高层次隐藏向量,c是词数、w是句子第w个单词或者字。

5.如权利要求1所述的无监督跨语言句对齐实现方法,其特征在于,α取值为0.5。

6.如权利要求1所述的无监督跨语言句对齐实现方法,其特征在于,S300中还包括:

S320、双向最优匹配无法一次性将所有的原文句子和译文句子,为了匹配剩下的句向量,需要不断更新相似度矩阵SIMij(公式10),不断进行双向匹配;

根据已匹配的句对集合M*(公式8),构建遮罩矩阵MASKij(公式9),遮罩矩阵将未匹配句子的匹配范围从全局约束到局部,不断双向最优匹配,得到新的匹配句对,缩小原文和译文的匹配范围;

根据遮罩矩阵,更新局部位置相似度矩阵(公式10),把语义相似度矩阵与局部位置相似度矩阵相乘,更新相似度矩阵,进行下一次双向最优匹配;不断重复公式7-11的操作,直到所有原文和译文句子匹配:

LOCAL_POSij=POSij*MASKij (10)

SIM′ij=LOCAL_POSij*SEMij (11)

其中,Mij为句对匹配矩阵,1为匹配,0为不匹配;M*为已匹配句对集合;MASKij为遮罩矩阵,1为不遮罩,0为遮罩。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海一者信息科技有限公司,未经上海一者信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111130753.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top