[发明专利]句子级双语对齐方法及装置、计算机可读存储介质有效
申请号: | 201811562126.2 | 申请日: | 2018-12-20 |
公开(公告)号: | CN109670178B | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 聂镭;李睿;聂颖;郑权;张峰 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 北京博讯知识产权代理事务所(特殊普通合伙) 11593 | 代理人: | 柳兴坤 |
地址: | 519031 广东省珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种句子级双语对齐方法及装置、计算机可读存储介质,该方法包括:步骤S1:获取Z个训练好的卷积核,其中,Z为大于等于1的整数;步骤S2:分别对两个待对齐文本进行断句处理,并建立所述两个待对齐文本的文本相似度矩阵U:步骤S3:采用所述Z个训练好的卷积核中的每一个卷积核对所述文本相似度矩阵U进行卷积,得到Z个优化文本相似度矩阵;步骤S4:利用所述Z个优化文本相似度矩阵得到所述两个待对齐文本的语句对齐结果。本发明有利于提高文本间语句对齐的效率。 | ||
搜索关键词: | 对齐 矩阵 文本相似度 文本 计算机可读存储介质 卷积核 卷积 语句 句子 断句 优化 核对 | ||
【主权项】:
1.一种句子级双语对齐方法,其特征在于,包括:步骤S1:获取Z个训练好的卷积核,其中,Z为大于等于1的整数,每一个所述训练好的卷积核通过步骤S11‑步骤S15得到;步骤S11:分别对两个训练用文本进行断句处理,并建立所述两个训练用文本的文本相似度矩阵B:其中,n为所述两个训练用文本中的一个训练用文本经过断句处理得到的语句的数量,m为所述两个训练用文本中的另一个训练用文本经过断句处理得到的语句的数量,文本相似度矩阵B中的元素Kij为所述一个训练用文本经过断句处理得到的第i个语句与所述另一个训练用文本经过断句处理得到的第j个语句的文本相似度;步骤S12:初始化卷积核;步骤S13:利用当前的卷积核对所述两个训练用文本的文本相似度矩阵B进行卷积,得到矩阵P,并计算损失值loss,若损失值loss满足预设要求,则执行步骤S14,否则,执行步骤S16;其中,若所述一个训练用文本经过断句处理得到的第i个语句与所述另一个训练用文本经过断句处理得到的第j个语句配对,则Lij为1,否则为0;步骤S14:采用验证集对当前的卷积核进行验证,判断验证的结果是否满足预设要求,若是,执行步骤S15,若否,执行步骤S16;步骤S15:将当前的卷积核作为训练好的卷积核;步骤S16:根据损失值loss调整当前的卷积核的权重,判断当前的训练次数是否达到预设次数,若是,执行步骤S15,若否,重复执行步骤S13;步骤S2:分别对两个待对齐文本进行断句处理,并建立所述两个待对齐文本的文本相似度矩阵U:其中,a为所述两个待对齐文本中的一个待对齐文本经过断句处理得到的语句的数量,b为所述两个待对齐文本中的另一个待对齐文本经过断句处理得到的语句的数量,文本相似度矩阵U中的元素Kij为所述一个待对齐文本经过断句处理得到的第i个语句与所述另一个待对齐文本经过断句处理得到的第j个语句的文本相似度;步骤S3:采用所述Z个训练好的卷积核中的每一个卷积核对所述文本相似度矩阵U进行卷积,得到Z个优化文本相似度矩阵;步骤S4:利用所述Z个优化文本相似度矩阵得到所述两个待对齐文本的语句对齐结果;其中,所述步骤S4包括:步骤S41:根据所述Z个优化文本相似度矩阵计算文本匹配度矩阵T,其中,所述文本匹配度矩阵T中的元素Yij为所述一个待对齐文本经过断句处理得到的第i个语句与所述另一个待对齐文本经过断句处理得到的第j个语句的文本匹配度,且所述文本匹配度矩阵T中的每一个元素的值为所述Z个优化文本相似度矩阵中相同位置元素的平均值;步骤S42:依次遍历所述文本匹配度矩阵T中的每一行元素,从每一行元素中选取值最大的元素,并将所述选取的元素对应的两个语句进行配对。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811562126.2/,转载请声明来源钻瓜专利网。