[发明专利]具有条件计算的注意力神经网络在审
申请号: | 202180034041.0 | 申请日: | 2021-06-30 |
公开(公告)号: | CN115516461A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 德米特里·列皮欣;黄彦平;奥尔汉·菲拉特;马克西姆·克里昆;陈德颢;诺姆·M·沙泽尔;李赫中;徐元仲;陈智峰 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 邓聪惠;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 条件 计算 注意力 神经网络 | ||
用于对网络输入执行机器学习任务以生成网络输出的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面中,系统中的一个包括注意力神经网络,所述注意力神经网络被配置为执行机器学习任务,注意力神经网络包括一个或多个注意力层,每个注意力层包括注意力子层和前馈子层。注意力层中的一些或全部具有前馈子层,所述前馈子层将条件计算应用于对子层的输入。
相关申请的交叉引用
本申请要求于2020年6月30日提交的美国临时申请序列号第63/046,545号的优先权,该申请的全部内容通过引用并入本文中。
背景技术
本说明书涉及使用神经网络对网络输入执行机器学习任务。
神经网络是机器学习模型,该机器学习模型采用一层或多层非线性单元来预测接收到的输入的输出。除了输出层之外,有些神经网络还包括一个或多个隐藏层。每个隐藏层的输出都被用作网络中的下一层——即,下一个隐藏层或输出层——的输入。网络的每一层都根据相应的参数集的当前值从接收到的输入生成输出。
发明内容
本说明书描述了一种在一个或多个位置的一个或多个计算机上作为计算机程序实施的系统,该系统使用注意力神经网络对网络输入执行机器学习任务,该注意力神经网络包括采用条件计算的前馈子层。
本说明书中所描述的主题的特定实施例可以实施以实现以下一个或多个优点。
本说明书中所描述的技术允许自注意力神经网络(例如,具有基于转换器的架构的神经网络)的计算能力提高,而在使用神经网络执行推断时消耗的计算资源量不会有对应的显著增加。具体地,所描述的技术结合了自注意力神经网络中一个或多个前馈子层的条件计算,从而显著提高了为需要处理输入序列、生成输出序列或两者的任务生成的输出的质量,而不显著增加计算成本。此外,通过在本说明书中所描述的训练期间跨多个设备使所得自注意力神经网络并行化,可以有效地训练自注意力神经网络,尽管该自注意力神经网络具有比现有的自注意力网络明显更多的参数。附加地,通过在下述训练期间选择哪些专家用于任何给定位置的任何给定输入(也称为“词元”(“token”)),所描述的技术确保模型利用了条件计算所提供的增加的能力,并且可以实现上述显著的质量提高。
本说明书的主题的一个或多个实施例的细节在附图和下面的描述中进行说明。主题的其他特征、方面和优点通过说明书、附图和权利要求书将变得显而易见。
附图说明
图1示出了示例神经网络系统。
图2示出了常规层和具有条件计算子层的层的示例。
图3是使用条件计算子层处理受注意层输入序列的示例过程的流程图。
图4示出了跨多个硬件设备部署的注意力神经网络的示例编码器。
相同的参考数字和标记在各个图中都指示相同的元件。
具体实施方式
本说明书描述了一种在一个或多个位置的一个或多个计算机上作为计算机程序实施的系统,该系统对网络输入执行机器学习任务,为机器学习任务生成网络输出。
机器学习任务可以是任何机器学习任务,该机器学习任务(i)对作为输入序列的网络输入进行操作,(ii)生成作为输出序列的网络输出或(iii)进行这两者。
下面是机器学习任务的一些示例,系统可以配置为执行这些机器学习任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180034041.0/2.html,转载请声明来源钻瓜专利网。