[发明专利]一种基于transformer多种注意力机制的权重分配方法在审
申请号: | 201910924914.X | 申请日: | 2019-09-27 |
公开(公告)号: | CN110688860A | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 闫明明;陈绪浩;罗华成;赵宇;段世豪 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/47 | 分类号: | G06F40/47;G06F40/45 |
代理公司: | 51126 成都中亚专利代理有限公司 | 代理人: | 王岗 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注意力机制 输出 注意力模型 目标语言 对齐 正则化 计算过程 权重分配 权重函数 实验效果 随机参数 词向量 源语言 最优性 运算 逼近 偏离 翻译 保存 | ||
本发明公开了一种基于transformer多种注意力机制的权重分配方法;包括:注意力机制的输入是目标语言的目标语言和源语言的词向量,输出是一个对齐张量。使用多个注意力机制函数可以输出多个对齐张量输出,并且由于计算过程中有随机参数的变化,所以每个输出是不同的。在此将所有的注意力机制模型都投入运算中,并将多种注意力机制输出做正则化计算,来逼近最佳输出。这种正则化计算方法确定了所得的值不会偏离最优值太远,也保存了各个注意力模型的最优性,若是一个注意力模型的实验效果极好,则加大该模型的权重函数来加大该模型对最终输出的影响力,从而提高翻译效果。
技术领域
本发明涉及的神经机器翻译相关领域,具体来讲是一种基于transformer多种注意力机制权重分配方法。
背景技术
神经网络机器翻译是最近几年提出来的一种机器翻译方法。相比于传统的统计机器翻译而言,神经网络机器翻译能够训练一张能够从一个序列映射到另一个序列的神经网络,输出的可以是一个变长的序列,这在翻译、对话和文字概括方面能够获得非常好的表现。神经网络机器翻译其实是一个编码-译码系统,编码把源语言序列进行编码,并提取源语言中信息,通过译码再把这种信息转换到另一种语言即目标语言中来,从而完成对语言的翻译。
而该模型在产生输出的时候,会产生一个注意力范围来表示接下来输出的时候要重点关注输入序列的哪些部分,然后根据关注的区域来产生下一个输出,如此反复。注意力机制和人的一些行为特征有一定相似之处,人在看一段话的时候,通常只会重点注意具有信息量的词,而非全部词,即人会赋予每个词的注意力权重不同。注意力机制模型虽然增加了模型的训练难度,但提升了文本生成的效果。在该专利中,我们就是在注意力机制函数中进行改进.
自2013年提出了神经机器翻译系统之后,随着计算机的计算力发展的迅速,神经机器翻译也得到了迅速的发展,先后提出了seq-seq模型,transformer模型等等,2013年,Nal Kalchbrenner和Phil Blunsom提出了一种用于机器翻译的新型端到端编码器-解码器结构[4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。2017年谷歌发布了一种新的机器学习模型Transformer,该模型在机器翻译及其他语言理解任务上的表现远远超越了现有算法。
传统技术存在以下技术问题:
在注意力机制函数对齐过程中,现有的框架是先计算输入的两个句子词向量的相似度,再进行一系列计算得到对齐函数。而每个对齐函数在计算时会输出一遍,再以该次的输出作为下次的输入进行计算。这样单个线程的计算,很有可能导致误差的累积。我们引进多种注意力机制的权重分配,就是为了找出多个计算过程中的最优解。达到最佳翻译效果。
发明内容
因此,为了解决上述不足,本发明在此提供一种基于transformer多种注意力机制的权重分配方法;应用在基于注意力机制的transformer框架模型上。包括:注意力机制的输入是目标语言的目标语言和源语言的词向量,输出是一个对齐张量。使用多个注意力机制函数可以输出多个对齐张量输出,并且由于计算过程中有随机参数的变化,所以每个输出是不同的。现今已经提出了很多个注意力机制模型,比如自注意力机制,多头注意力机制,全部注意力机制,局部注意力机制等等,每种不同的注意力机制有着不同的输出与特点,我们将所有的注意力机制模型都投入运算中,并将多种注意力机制输出做正则化计算,来逼近最佳输出。
本发明是这样实现的,构造一种基于transformer多种注意力机制的权重分配方法,应用基于注意力机制的transformer模型中,其特征在于;包括如下步骤:
步骤1:在transformer模型中,针对应用情景选取其中较优秀的模型输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910924914.X/2.html,转载请声明来源钻瓜专利网。