[发明专利]混合专家神经网络在审
申请号: | 201780068472.2 | 申请日: | 2017-11-03 |
公开(公告)号: | CN109923558A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | N.M.沙泽尔;A.米尔霍西尼;K.S.马齐亚尔兹 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 输出 第一层 子网 输入提供 选通 输出选择 权重 配置 | ||
1.一种系统,包括:
由一个或多个计算机实施的主神经网络,所述主神经网络包括所述主神经网络中的第一神经网络层和第二神经网络层之间的混合专家(MOE)子网,其中所述MOE子网包括:
多个专家神经网络,其中每个专家神经网络被配置为根据所述专家神经网络的相应的专家参数集来处理由所述第一神经网络层生成的第一层输出,以生成相应的专家输出,以及
选通子系统,被配置为:
基于所述第一层输出来选择所述专家神经网络中的一个或多个专家神经网络,并为每个所选择的专家神经网络确定相应权重,
将所述第一层输出作为输入提供给所选择的专家神经网络中的每一个专家神经网络;
根据所选择的专家神经网络的权重来组合由所选择的专家神经网络生成的专家输出,以生成MoE输出,以及
将所述MoE输出作为输入提供给所述第二神经网络层。
2.根据权利要求1所述的系统,其中,所述专家神经网络具有相同或相似的架构,但是具有不同的参数值。
3.根据权利要求1或2中任一项所述的系统,其中,组合由所选择的专家神经网络生成的专家输出包括:
按所选择的专家神经网络的权重对由所选择的专家神经网络中的每一个专家神经网络生成的专家输出进行加权,以生成加权专家输出,以及
将所述加权专家输出求和以生成所述MoE输出。
4.根据权利要求1-3中任一项所述的系统,
其中所述选通子系统包括选通子网,并且其中所述选通子网被配置为:
根据选通参数集来处理所述第一层输出以生成包括所述多个专家神经网络中的每一个专家神经网络的相应权重的权重向量,以及
基于所述权重向量中的权重来选择所述专家神经网络中的一个或多个专家神经网络。
5.根据权利要求4所述的系统,其中所述权重向量是仅针对所述专家神经网络中的少数专家神经网络包括非零权重的稀疏向量。
6.根据权利要求4或5中任一项所述的系统,其中,选择一个或多个所述专家神经网络包括:
仅选择在所述权重向量中具有非零权重的专家神经网络。
7.根据权利要求4-6中任一项所述的系统,其中,根据选通参数集来处理所述第一层输出以生成包括所述多个专家神经网络中的每一个专家神经网络的相应权重的权重向量包括:
生成初始选通输出,其中生成所述初始选通输出包括将所述选通参数集应用于所述第一层输出;
将稀疏化函数应用于所述初始选通输出,以生成稀疏化的初始选通输出;以及
将softmax函数应用于所述稀疏化的初始选通输出以生成所述权重向量。
8.根据权利要求7所述的系统,其中,生成所述初始选通输出包括:
将所述选通参数集应用于所述第一层输出,以生成修改后的第一层输出;以及
将可调谐高斯噪声添加到所述修改后的第一层输出,以生成所述初始选通输出。
9.根据权利要求8所述的系统,其中,将可调谐高斯噪声添加到所述修改后的第一层输出以生成所述初始选通输出包括:
将可训练噪声参数集应用于所述第一层输出,以生成初始噪声输出;
将所述初始噪声输出与从正态分布中采样的噪声值的向量按元素相乘,以生成最终噪声输出;以及
将所述最终噪声输出添加到所述修改后的第一层输出。
10.根据权利要求7-9中任一项所述的系统,其中,所述稀疏化函数将所述初始选通输出中除了k个最高值以外的所有值设置为被softmax函数映射为零的值。
11.根据权利要求1-3中任一项所述的系统,其中所述选通子系统包括父选通子网和多个子选通子网,并且其中所述子选通子网中的每一个子选通子网管理所述多个专家神经网络的与每个其他子选通子网不相交的子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780068472.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:使用连续正则化训练联合多任务神经网络模型
- 下一篇:准循环神经网络