[发明专利]一种基于预训练模型的词对齐性能提升方法有效

专利信息
申请号: 202110695209.4 申请日: 2021-06-23
公开(公告)号: CN113408267B 公开(公告)日: 2023-09-01
发明(设计)人: 徐萍;姜炎宏;毕东;宁义明 申请(专利权)人: 沈阳雅译网络技术有限公司
主分类号: G06F40/216 分类号: G06F40/216;G06F18/22;G06N3/0464;G06N3/08
代理公司: 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 代理人: 李晓光
地址: 110004 辽宁省沈阳市*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 训练 模型 对齐 性能 提升 方法
【说明书】:

发明公开一种基于预训练模型的词对齐性能提升方法,步骤为:使用预训练模型获取句子中词语的词向量,构成互译句对的词向量矩阵X和Y;对词向量矩阵X和Y进行短语和术语的抽取,把短语和术语中的词的词向量进行加和平均处理,获得更新后的互译句对词向量矩阵X和Y;将词语和词语之间的词向量余弦计算值作为两个词之间的相似度,获得互译句对的相似度矩阵Sim;对Sim进行卷积操作,使得词对齐融入上下文词的信息;使用不同的词对齐抽取方法分别从更新后的互译句对相似度矩阵中抽取对应的词对齐信息。本发明通过基于预训练方法解决了深度学习需要训练数据大的问题,使用短语和术语表进行匹配,来解决预训练中词语之间相关度不大,而导致词语之间对齐不统一的问题。

技术领域

本发明涉及一种自然语言处理领域的词对齐提取技术,具体为一种基于预训练模型的词对齐性能提升方法。

背景技术

词对齐是自然语言处理的子课题,而且地位极其重要。原因是词对齐技术在自然语言领域的实例抽取、复述生成和词性标注,尤其是统计机器翻译等任务上都有较好的应用。所以一个好的自动词对齐系统是推进自然语言处理领域中大多数任务提升的关键系统。

近年来,随着人工智能的推进,深度学习获得了各个领域广泛学者的亲昧,当然机器翻译领域也不例外。近几年来,相关研究人员走出统计机器翻译(SMT)的世界,去打开了神经机器翻译(NTM)的大门。在构建神经机器翻译模型的时候,大都采用编码-解码框架,再加上最为重要的注意力机制来引入上下文信息,从而提升翻译的质量。其中最为著名的NMT翻译模型莫过于Ashish Vaswani和Noam Shazeer等人提出的Transformer模型,此模型WMT2014上面多项任务中取得了突破性的分数。

伴随着NMT突破性的成效和不断攀升的热度,一些研究人员开始依据NMT里面的注意力机制捕捉到的信息,来进行目标语句到源语之间的词对齐,其中初始尝试是在以循环神经网络作为编码器和解码器的NMT里面,之后在Transformer机器翻译模型上继续捕捉词对齐信息,并且和以往仅仅利用Attention矩阵来进行词对齐不同的是,这一方法提出添加训练参数的Explicit Alignment Mode(EAM)和引入对齐损失值Prediction Difference(PD)来改善以往在NMT上进行词对齐的方案,这两种改进相对于以前的单一使用Attention矩阵进行对齐在结果上有了较大的提升。

在实际实验的过程中,发现基于NMT进行对齐的效果相对于基于统计方法对齐的效果并不好,甚至在部分数据集上显示很大的劣势,但是在NMT上进行对齐给研究人员提供了一个新的词对齐视角——利用深度学习来进行词对齐。

之后,近两年,预训练模型的出来给研究词对齐的工作人员带来了一道曙光。由于预训练模型是基于无监督的方法进行训练出来的,所以可以使用大量的语料,使得预训练模型中的词向量拥有语义和语境信息。因此,研究人员可以直接使用词语词的词向量余弦值直接作为词语之间的相似度,进而进行抽取词对齐。但是现在存在的一个较大的问题就是,这种方法的下的词对齐很方便很易用,但是对于短语和术语的对齐效果较差。总的来看,词对齐方法总的在现在流行的而且效果较好的方法可分为三类:基于规则、基于统计和基于深度学习方法的,基于规则的方法使用内置的双语词典作为判断语言单位对齐的标志。其特点是容易实现,而且直观;基于统计的方法不需要任何事先编写规则或者学习知识,而是以一组数值待定的概率矩阵的形式出现,通过用真实语料训练统计对齐模型,可以得到概率数据,然后根据概率数据计算每个对齐方案的概率,选择概率最高的一个作为对齐输出结果,这种词对齐模型也可以归结于生成类模型;而基于深度学习方法则可以看作是一种学习知识和应用知识的过程,学习知识的过程可以看作用大量的双语对齐数据集训练网络模型里面庞大的参数。然后网络利用自己已经训练好的参数来进行判断未学习过的双语句对对齐信息,这个过程可以说是模型用来应用自己已经学习过的知识的过程。

虽然深度学习方法能获得比较好的词对齐数据,但是由于其参数量庞大,所以需要较为庞大的数据集进行训练,这样非常耗费人工标注的资源,影响了词对齐数据在很多自然语言领域其他任务的使用。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110695209.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top