[发明专利]超参数神经网络集成在审
申请号: | 202180033319.2 | 申请日: | 2021-06-07 |
公开(公告)号: | CN115516466A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 鲁道夫·杰纳顿;弗洛里安·文策尔;达斯廷·特兰 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06N5/00;G06N20/20 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 参数 神经网络 集成 | ||
包括在计算机存储介质上编码的计算机程序的用于生成神经网络集成的方法、系统和装置。具体地,使用彼此不同的超参数来训练集成中的神经网络。
相关申请的交叉引用
本申请要求于2020年6月5日提交的美国临时申请No.63/035,614的优先权,其全部内容并入本文。
技术领域
本说明书涉及训练神经网络。
背景技术
神经网络是采用一层或多层非线性单元的机器学习模型来预测接收到的输入的输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从所接收的输入生成输出。
发明内容
本说明书描述了实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统,其生成多个神经网络的集成(ensemble)以执行特定机器学习任务。
能够实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。
用于生成神经网络的集成的常规技术通过使用不同的参数初始化训练神经网络,即,通过将集成中的神经网络的参数的参数值初始化为不同的初始值,来确保由集成中的神经网络生成的预测的多样性。然而,所描述的技术改变了用于神经网络的训练的参数和超参数的初始化两者。通过使用所描述的技术不仅在权重上而且在超参数上生成集成,所生成的集成能够在由集成生成的预测的准确性方面以及在提供用于量化由集成生成的预测的不确定性的度量方面胜过常规集成。
此外,通过以还确保所生成的批量集成之中的超参数多样性的方式生成计算上有效的批量集成,所描述的技术能够以计算上有效的方式提高预测质量和不确定性量化。
例如,在各种示例实施方式中,所生成的K个神经网络的集成中的神经网络共享至少一些参数。由于这样的共享参数即使被多个神经网络使用也仅需要存储一次,因此所生成的集成适于存储器高效的存储。具体地,由于在K个神经网络的集成中的神经网络之间共享参数,因此存储K个神经网络的集成所需的存储器的量能够与存储K个神经网络的集成的受约束的存储器空间中可用的存储器相同或更少。此外,在K个神经网络共享参数的一些实施方式中,能够针对整批多个输入并行地生成K个神经网络中的每一个的输出,从而相对于常规技术减少针对集成生成预测的延迟。
在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。主题的其他特征、方面和优点根据说明书、附图和权利要求书将变得显而易见。
附图说明
图1示出了示例训练系统。
图2是用于生成超深度集成的示例过程的流程图。
图3是用于生成超批量集成的示例过程的流程图。
图4示出了指示超深度集成和超批量集成在各种机器学习任务上的性能的图。
各个附图中相同的附图标记和名称指示相同的元件。
具体实施方式
图1示出了示例训练系统100。训练系统100是实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例,其中,能够实现下面描述的系统、组件和技术。
训练系统100使用训练数据集102和验证数据集104生成已经被训练以执行特定机器学习任务的多个经训练的神经网络120A-K的集成130。
训练数据集102包括多个训练示例,并且对于每个训练示例,包括相应的目标输出。对于给定训练示例的目标输出是应当通过在对应的训练输入上执行特定机器学习任务而被生成的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180033319.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有全晶片激光加热的外延腔室
- 下一篇:护套用升级聚乙烯