[发明专利]具有条件计算的注意力神经网络在审
申请号: | 202180034041.0 | 申请日: | 2021-06-30 |
公开(公告)号: | CN115516461A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 德米特里·列皮欣;黄彦平;奥尔汉·菲拉特;马克西姆·克里昆;陈德颢;诺姆·M·沙泽尔;李赫中;徐元仲;陈智峰 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 邓聪惠;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 条件 计算 注意力 神经网络 | ||
1.一种用于对网络输入执行机器学习任务以生成网络输出的系统,所述系统包括一个或多个计算机以及存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实施:
被配置为执行所述机器学习任务的注意力神经网络,所述注意力神经网络包括多个层,每个层包括注意力子层和前馈子层,所述注意力子层被配置为:
接收所述层的输入序列,所述输入序列在一个或多个位置中的每个位置处包括相应的层输入;以及
至少部分地通过将注意力机制应用于所述层的所述输入序列来生成受注意输入序列,所述受注意输入序列包括在所述一个或多个位置中的每个位置处的相应的受注意层输入,以及所述前馈层被配置为:
接收所述受注意输入序列;以及
从所述受注意输入序列生成所述层的输出序列,所述输出序列包括在所述一个或多个位置中的每个位置处的相应的层输出,
其中,对于所述多个层中的至少一个层,所述前馈子层是条件计算子层,所述条件计算子层(i)包括多个专家前馈神经网络,并且(ii)被配置为通过执行以下操作生成所述层的所述输出序列,对于所述层的输入序列中的每个所述位置,所述操作包括:
接收在该位置处的所述相应的受注意层输入;
将门控函数应用于在该位置处的所述相应的受注意层输入,以为所述多个专家前馈神经网络中的每个生成相应的门分数;
至少基于所述相应的门分数来从所述多个专家前馈神经网络中选择真子集;
使用所述真子集中的每个所述专家前馈神经网络对在该位置处的所述相应的受注意层输入进行处理,以为每个所述专家前馈神经网络生成相应的专家输出;
组合所述相应的专家输出,以生成组合专家输出;以及
从所述组合专家输出生成在所述位置处的所述相应的层输出。
2.根据权利要求1所述的系统,其中,只有所述注意力神经网络中的所述层的真子集具有作为条件计算子层的前馈子层。
3.根据权利要求2所述的系统,其中,对于不在所述真子集中的每个层,所述前馈子层使用单个前馈神经网络处理在对该层的层输入中的每个所述位置处的每个相应的受注意层输入。
4.根据权利要求1或权利要求2中任一项所述的系统,其中,所述多个层中的所述层被布置在序列中,以及其中,所述序列中的每个第二层具有作为条件计算子层的前馈子层。
5.根据权利要求4所述的系统,其中,所述序列包括多个编码器层,之后是多个解码器层。
6.根据任一项前述权利要求所述的系统,其中,所述系统包括多个硬件设备,以及其中,实施所述注意力神经网络包括:
跨所述多个设备中的两个或两个以上设备对每个条件计算子层进行分片。
7.根据权利要求6所述的系统,其中,实施所述注意力神经网络包括:
跨所述多个设备中的两个或两个以上设备复制每个注意力子层。
8.根据任一项前述权利要求所述的系统,其中,从所述组合专家输出生成所述层输出包括:
将残差连接和归一化应用于在所述位置处的所述组合专家输出,以生成所述输出序列。
9.根据任一项前述权利要求所述的系统,其中,至少基于所述相应的门分数来从所述多个专家前馈神经网络中选择真子集包括:
在所述多个专家前馈神经网络中最多选择总数量E的专家前馈神经网络中的k个专家前馈神经网络。
10.根据权利要求9所述的系统,其中,k为2。
11.根据权利要求9或权利要求10中任一项所述的系统,其中,E为至少100。
12.根据权利要求11所述的系统,其中,E为至少500。
13.根据权利要求12所述的系统,其中,E为至少2000。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180034041.0/1.html,转载请声明来源钻瓜专利网。