[发明专利]一种无监督跨语言句对齐实现方法在审
申请号: | 202111130753.0 | 申请日: | 2021-09-26 |
公开(公告)号: | CN113779978A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 陈件;潘丽婷 | 申请(专利权)人: | 上海一者信息科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30;G06F40/194;G06F40/40 |
代理公司: | 上海骁象知识产权代理有限公司 31315 | 代理人: | 赵俊寅 |
地址: | 200090 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 语言 对齐 实现 方法 | ||
1.一种无监督跨语言句对齐实现方法,其特征在于,包括如下步骤:
S100、无监督生成句向量;
S200、相似度计算
相似度是语义相似度、位置相似度和句长相似度的乘积(公式3),语义相似度为原文句向量和译文句向量的余弦距离(公式4),位置相似度为原文的句子位置和译文的句子位置的相对距离(公式5),句长相似度是原文句长占比和译文句子占比的差距(公式6):
SIMij=SEMij*POSij*LENij (3)
其中,SIMij表示原文第i个句向量和译文第j个句向量的相似度,SEMij表示原文第i个句向量和译文第j个句向量的语义相似度;
POSij表示原文第i个句向量和译文第j个句向量的位置相似度,vi表示原文第i个句向量,vj表示译文第j个句向量,cs表示原文的句数,ct表示译文的句数;α为超参数,限制位置相似度的权重;
LENij表示原文第i个句子的长度占比和译文第j个句子的长度占比的句长相似度,ls是原文所有句子的长度,lt是译文所有句子的长度,lsi是原文第i个句子的长度,ltj是译文第j个句子的长度;
S300、句匹配
S310、原文句向量和译文句向量使用双向最优匹配,即当原文第i个句向量的相似度最高是译文第j个句向量,同时译文第j个句向量的相似度最高是原文第i个句向量时,第i个原文句向量与第j个译文句向量匹配(公式7):
2.如权利要求1所述的无监督跨语言句对齐实现方法,其特征在于,S100还包括:
S110、将不同语言文本进行分词,使得原文、译文中的句子被分割为多个独立的词;
S120、根据分词结果,获取句子的向量。
3.如权利要求2所述的无监督跨语言句对齐实现方法,其特征在于,S110中,使用wordpiece算法对不同语言文本进行分词。
4.如权利要求2所述的无监督跨语言句对齐实现方法,其特征在于,S120还包括:
根据分词结果,加载distil-mBERT预训练模型,使用multi-head和self-attention输出6层隐藏向量,由于低层隐藏向量包含语法信息,高层隐藏向量包含语义信息,因此选取低层次隐藏向量和高层次隐藏向量的均值作为词向量(公式1);所有词向量相加,再除以词数得到词向量均值,作为句子的向量(公式2):
其中vw是词向量,vs是句子的向量,hlow是低层次隐藏向量,hhigh是高层次隐藏向量,c是词数、w是句子第w个单词或者字。
5.如权利要求1所述的无监督跨语言句对齐实现方法,其特征在于,α取值为0.5。
6.如权利要求1所述的无监督跨语言句对齐实现方法,其特征在于,S300中还包括:
S320、双向最优匹配无法一次性将所有的原文句子和译文句子,为了匹配剩下的句向量,需要不断更新相似度矩阵SIMij(公式10),不断进行双向匹配;
根据已匹配的句对集合M*(公式8),构建遮罩矩阵MASKij(公式9),遮罩矩阵将未匹配句子的匹配范围从全局约束到局部,不断双向最优匹配,得到新的匹配句对,缩小原文和译文的匹配范围;
根据遮罩矩阵,更新局部位置相似度矩阵(公式10),把语义相似度矩阵与局部位置相似度矩阵相乘,更新相似度矩阵,进行下一次双向最优匹配;不断重复公式7-11的操作,直到所有原文和译文句子匹配:
LOCAL_POSij=POSij*MASKij (10)
SIM′ij=LOCAL_POSij*SEMij (11)
其中,Mij为句对匹配矩阵,1为匹配,0为不匹配;M*为已匹配句对集合;MASKij为遮罩矩阵,1为不遮罩,0为遮罩。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海一者信息科技有限公司,未经上海一者信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111130753.0/1.html,转载请声明来源钻瓜专利网。