[发明专利]超参数神经网络集成在审
申请号: | 202180033319.2 | 申请日: | 2021-06-07 |
公开(公告)号: | CN115516466A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 鲁道夫·杰纳顿;弗洛里安·文策尔;达斯廷·特兰 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06N5/00;G06N20/20 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 参数 神经网络 集成 | ||
1.一种训练包括K个神经网络的集成以执行机器学习任务的方法,其中,K是大于1的整数,
其中,所述K个神经网络中的每一个包括具有相应参数的多个神经网络层,
其中,所述多个神经网络层包括第一神经网络层,对于所述K个神经网络中的每一个,所述第一神经网络层具有:
(i)在所述集成中的所有K个神经网络之间共享的共享参数,
(ii)特定于所述神经网络的特定参数,以及
(iii)包括第一嵌入参数的嵌入参数,所述第一嵌入参数将当前超参数映射到用于所述共享参数的修改器,
其中,所述方法包括:
针对所述K个神经网络中的每一个维持相应的超参数分布参数集,所述相应的超参数分布参数集定义用于所述神经网络的训练的超参数上的分布;以及
通过重复地执行以下操作来训练所述K个神经网络:
对于所述K个神经网络中的每一个,从由用于所述神经网络的所述相应的超参数分布参数集定义的所述分布中采样超参数;
获得多个训练示例;
对于所述K个神经网络中的每一个,根据针对所述神经网络采样的超参数,在所述多个训练示例上训练所述神经网络,以确定对所述第一神经网络层的至少所述共享参数、所述特定参数和所述嵌入参数的更新;以及
将针对所述K个神经网络中的每一个确定的更新应用于所述共享参数。
2.根据权利要求1所述的方法,其中,所述嵌入参数在所述集成中的神经网络之间共享。
3.根据权利要求1或2中的任一项所述的方法,所述操作进一步包括:
对于所述K个神经网络中的每一个,将所述更新应用于所述神经网络的所述第一神经网络层的所述特定参数。
4.根据权利要求1-3中的任一项所述的方法,其中,在所述训练示例上训练所述神经网络中的每一个包括训练所述神经网络中的每一个以最小化损失函数,所述损失函数针对每个神经网络测量由所述神经网络针对给定训练示例生成的网络输出与针对所述给定训练示例的目标输出之间的损失。
5.根据权利要求1-3中的任一项所述的方法,其中,在所述训练示例上训练所述神经网络中的每一个包括训练所述神经网络中的每一个以最小化损失函数,所述损失函数测量从由所述K个神经网络针对给定训练示例生成的网络输出生成的最终输出与针对所述给定训练示例的目标输出之间的损失。
6.根据权利要求1-5中的任一项所述的方法,其中,对于所述K个神经网络中的每一个,根据所采样的超参数在所述多个训练示例上训练所述神经网络包括将所述嵌入参数应用于所述采样的超参数以生成用于所述共享参数的所述修改器。
7.根据权利要求1-6中的任一项所述的方法,所述操作进一步包括:
获得多个验证示例;以及
基于所述验证示例上的所述K个神经网络的性能来更新所述相应的超参数分布参数集。
8.根据权利要求1-7中的任一项所述的方法,其中,所述特定参数包括修改所述共享参数的第一特定参数和定义用于所述第一神经网络层的特定偏置向量的第二特定参数。
9.根据权利要求8所述的方法,其中,所述嵌入参数进一步包括第二嵌入参数,所述第二嵌入参数将当前超参数映射到用于所述特定偏置向量的修改器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180033319.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有全晶片激光加热的外延腔室
- 下一篇:护套用升级聚乙烯