[发明专利]基于注意力的序列转换神经网络在审
申请号: | 201880007309.X | 申请日: | 2018-05-23 |
公开(公告)号: | CN110192206A | 公开(公告)日: | 2019-08-30 |
发明(设计)人: | N.M.沙泽尔;A.N.戈梅兹;L.M.凯瑟;J.D.乌兹科雷特;L.O.琼斯;N.J.帕马;I.波洛苏金;A.T.瓦斯瓦尼 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 编码器 子网 神经网络 输入位置 接收输入 注意力 配置 计算机存储介质 接收输入序列 计算机程序 注意力机制 编码表示 输出序列 输入顺序 输入序列 序列转换 导出 子层 查询 输出 网络 应用 | ||
用于从输入序列生成输出序列的、包括编码在计算机存储介质上的计算机程序的方法、系统和装置。在一个方面,系统中的一个包括被配置为接收输入序列并生成网络输入的编码表示的编码器神经网络,编码器神经网络包括一个或多个编码器子网的序列,每个编码器子网被配置为接收输入位置中的每一个的各自的编码器子网输入并生成输入位置中的每一个的各自的子网输出,并且每个编码器子网包括:编码器自注意力子层,被配置为接收输入位置中的每一个的子网输入,并且对于按照输入顺序的每个特定输入位置:使用从特定输入位置处的编码器子网输入导出的一个或多个查询,在编码器子网输入上应用注意力机制。
相关申请的交叉引用
本申请是2017年5月23日提交的美国临时专利申请第62/510,256号和2017年8月4日提交的美国临时专利申请第62/541,594号的非临时申请,并要求其优先权。前述申请的全部内容通过引用并入于此。
背景技术
本说明书涉及使用神经网络来转换序列。
神经网络是采用一层或多层非线性单元来预测接收的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层的输入,即下一隐藏层或输出层的输入。网络的每一层根据各自的参数集中的当前值从接收的输入中生成输出。
发明内容
本说明书描述了被实施为一个或多个位置处的一个或多个计算机上的计算机程序的系统,该系统从输入序列生成输出序列,即,将输入序列转换成输出序列,该输出序列包括按照输出顺序的多个位置中的每一个位置处的各自的输出,该输入序列包括按照输入顺序的多个位置中的每一个位置处的各自的输入。具体地,该系统使用编码器神经网络和解码器神经网络生成输出序列,这两种神经网络都是基于注意力(attention-based)的。
可以实施本说明书中描述的主题的特定实施例,以便实现一个或多个以下优点。
使用神经网络的序列转换的许多现有方法在编码器和解码器两者中都使用递归神经网络。虽然这些类型的网络可以在序列转换任务上获得良好的性能,但是它们的计算在本质上是顺序的,即递归神经网络以递归神经网络在前述时间步骤上的隐藏状态为条件在当前时间步骤上生成输出。这种顺序性质排除了并行化,导致训练和推理时间较长,以及相应地利用大量计算资源的工作负载。
另一方面,因为所描述的序列转换神经网络的编码器和解码器是基于注意力的,所以序列转换神经网络可以更快地转换序列,更快地被训练,或者两者兼有,因为网络的操作可以更容易地并行化。也就是说,因为所描述的序列转换神经网络完全依赖于注意力机制来得出输入和输出之间的全局依赖性,并且不采用任何递归神经网络层,所以由递归神经网络层的顺序性质引起的训练和推理时间长以及资源使用高的问题得以缓解。
此外,序列转换神经网络可以比基于卷积层或递归层的现有网络更精确地转换序列,即使训练和推理时间更短。具体地,在传统模型中,将来自两个任意输入或输出位置的信号相关联所需的操作数量随着位置之间的距离而增加,例如,取决于模型体系结构线性地或对数地增加。这使得在训练期间学习远处位置之间的依赖性变得更加困难。在目前描述的序列转换神经网络中,由于在不依赖于递归或卷积的同时使用注意力(并且具体地,自注意力),操作的数量减少到恒定数量的操作。自注意力(self-attention),有时称为内部注意力(intra-attention),是将单个序列的不同位置相关联以便计算序列的表示的注意力机制。注意力机制的使用允许序列转换神经网络在训练期间有效地学习远处位置之间的依赖性,提高序列转换神经网络在各种转换任务(例如机器翻译)上的准确性。实际上,所描述的序列转换神经网络可以在机器翻译任务上获得最先进的结果,尽管比传统的机器翻译神经网络更容易训练和更快生成输出。通过使用注意力机制,序列转换神经网络在没有特定任务的调节的情况下也可以表现出优于传统的机器翻译神经网络的性能。
本说明书主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中,主题的其他特征、方面和优点将变得显而易见。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880007309.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:镜像损失神经网络
- 下一篇:共享物理图形的信号片段