[发明专利]一种无监督跨语言句对齐实现方法在审

申请号：	202111130753.0	申请日：	2021-09-26
公开（公告）号：	CN113779978A	公开（公告）日：	2021-12-10
发明（设计）人：	陈件;潘丽婷	申请（专利权）人：	上海一者信息科技有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/30;G06F40/194;G06F40/40
代理公司：	上海骁象知识产权代理有限公司 31315	代理人：	赵俊寅
地址：	200090 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种监督语言对齐实现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种无监督跨语言句对齐实现方法，其特征在于，包括如下步骤：

S100、无监督生成句向量；

S200、相似度计算

相似度是语义相似度、位置相似度和句长相似度的乘积(公式3)，语义相似度为原文句向量和译文句向量的余弦距离(公式4)，位置相似度为原文的句子位置和译文的句子位置的相对距离(公式5)，句长相似度是原文句长占比和译文句子占比的差距(公式6)：

SIM_ij＝SEM_ij*POS_ij*LEN_ij (3)

其中，SIM_ij表示原文第i个句向量和译文第j个句向量的相似度，SEM_ij表示原文第i个句向量和译文第j个句向量的语义相似度；

POS_ij表示原文第i个句向量和译文第j个句向量的位置相似度，v_i表示原文第i个句向量，v_j表示译文第j个句向量，c_s表示原文的句数，c_t表示译文的句数；α为超参数，限制位置相似度的权重；

LEN_ij表示原文第i个句子的长度占比和译文第j个句子的长度占比的句长相似度，l_s是原文所有句子的长度，l_t是译文所有句子的长度，l_si是原文第i个句子的长度，l_tj是译文第j个句子的长度；

S300、句匹配

S310、原文句向量和译文句向量使用双向最优匹配，即当原文第i个句向量的相似度最高是译文第j个句向量，同时译文第j个句向量的相似度最高是原文第i个句向量时，第i个原文句向量与第j个译文句向量匹配(公式7)：

2.如权利要求1所述的无监督跨语言句对齐实现方法，其特征在于，S100还包括：

S110、将不同语言文本进行分词，使得原文、译文中的句子被分割为多个独立的词；

S120、根据分词结果，获取句子的向量。

3.如权利要求2所述的无监督跨语言句对齐实现方法，其特征在于，S110中，使用wordpiece算法对不同语言文本进行分词。

4.如权利要求2所述的无监督跨语言句对齐实现方法，其特征在于，S120还包括：

根据分词结果，加载distil-mBERT预训练模型，使用multi-head和self-attention输出6层隐藏向量，由于低层隐藏向量包含语法信息，高层隐藏向量包含语义信息，因此选取低层次隐藏向量和高层次隐藏向量的均值作为词向量(公式1)；所有词向量相加，再除以词数得到词向量均值，作为句子的向量(公式2)：

其中v_w是词向量，v_s是句子的向量，h_low是低层次隐藏向量，h_high是高层次隐藏向量，c是词数、w是句子第w个单词或者字。

5.如权利要求1所述的无监督跨语言句对齐实现方法，其特征在于，α取值为0.5。

6.如权利要求1所述的无监督跨语言句对齐实现方法，其特征在于，S300中还包括：

S320、双向最优匹配无法一次性将所有的原文句子和译文句子，为了匹配剩下的句向量，需要不断更新相似度矩阵SIM_ij(公式10)，不断进行双向匹配；

根据已匹配的句对集合M^*(公式8)，构建遮罩矩阵MASK_ij(公式9)，遮罩矩阵将未匹配句子的匹配范围从全局约束到局部，不断双向最优匹配，得到新的匹配句对，缩小原文和译文的匹配范围；

根据遮罩矩阵，更新局部位置相似度矩阵(公式10)，把语义相似度矩阵与局部位置相似度矩阵相乘，更新相似度矩阵，进行下一次双向最优匹配；不断重复公式7-11的操作，直到所有原文和译文句子匹配：

LOCAL_POS_ij＝POS_ij*MASK_ij (10)

SIM′_ij＝LOCAL_POS_ij*SEM_ij (11)

其中，M_ij为句对匹配矩阵，1为匹配，0为不匹配；M^*为已匹配句对集合；MASK_ij为遮罩矩阵，1为不遮罩，0为遮罩。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海一者信息科技有限公司，未经上海一者信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】