[发明专利]一种基于预训练模型的词对齐性能提升方法有效
申请号: | 202110695209.4 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113408267B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 徐萍;姜炎宏;毕东;宁义明 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F18/22;G06N3/0464;G06N3/08 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 模型 对齐 性能 提升 方法 | ||
1.一种基于预训练模型的词对齐性能提升方法,其特征在于包括以下步骤:
1)使用预训练模型获取句子中词语的词向量,从而构成互译句对的词向量矩阵X和Y;
2)使用短语和术语抽取工具对互译句对词向量矩阵X和Y进行短语和术语的抽取,然后把短语和术语中的词的词向量进行加和平均处理,加强其内部之间的关联性,获得更新后的互译句对词向量矩阵X和Y;
3)将词语和词语之间的词向量余弦计算值作为两个词之间的相似度,获得互译句对的相似度矩阵Sim,计算公式如下:
Sim=cos(X,Y)
4)取卷积核定义为κ,尺寸为n×n大小,这里n为2-8,对相似度矩阵Sim进行卷积操作,使得词对齐融入上下文词的信息;
5)使用不同的词对齐抽取方法分别从更新后的互译句对相似度矩阵中抽取对应的词对齐信息;
在步骤5)中,分别使用Argmax方法、Itermax方法和Match对方法步骤4)中的相似度矩阵进行提取词对齐数据,具体的操作步骤如下:
501)使用Argmax方法来对相似度矩阵中的行和列分别进行求最大值处理,如果对应模块是行的最大值和列的最大值,那么这个模块中的源语词和目标语词是对齐的;
502)使用Itermax方法对相似度矩阵进行迭代的抽取词对齐信息;然后每一次迭代得到的词对齐都作为最后得到的词对齐结果;
503)把词对齐任务映射到一个二分图中,然后使用Match算法,来对该图进行求解,得到最后的词对齐结果。
2.按照权利要求1所述的一种基于预训练模型的词对齐性能提升方法,其特征在于:在步骤2)中,更新对应的词向量矩阵的具体步骤为:
201)使用工具对句子进行短语和术语的抽取,然后构造数据集的短语和术语列表;
202)对句子的词向量矩阵进行短语和术语匹配,匹配出ei,……,ei+n共n个源语词为一个短语,对n个词语的词向量做出如下更新:
对句子中的所有短语和术语的词向量进行更新之后,即可获得对应更新过后的句子词向量矩阵X和Y。
3.按照权利要求1所述的一种基于预训练模型的词对齐性能提升方法,其特征在于:在步骤4)中,使用卷积核κ来对相似度矩阵进行卷积操作,做卷积的具体操作步骤如下:
401)设置卷积核κ,卷积核的尺寸为n×n,设置卷积核中各元素的值全部设置为0-1之间;
402)对双语句对的相似度矩阵进行卷积操作,来更新双语句对的相似度矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110695209.4/1.html,转载请声明来源钻瓜专利网。