[发明专利]用于训练超网络的方法和装置有效
申请号: | 202010116701.7 | 申请日: | 2020-02-25 |
公开(公告)号: | CN111368973B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 希滕;张刚;温圣召 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/084 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 网络 方法 装置 | ||
本公开涉及人工智能领域。本公开的实施例公开了用于训练超网络的方法和装置。该方法包括:通过依次执行多次迭代操作获得训练完成的超网络;迭代操作包括:初始化递归神经网络的参数,利用递归神经网络对当前的超网络进行采样以获得子网络;响应于确定保存的反向传播的梯度值的数量未达到预设的数量,基于训练数据对子网络进行训练以获得训练后的子网络的性能信息,对子网络的性能信息进行反向传播以更新超网络的参数,并保存反向传播的梯度值;响应于确定保存的梯度值的数量达到预设的数量,对保存的梯度值进行均一化处理,将均一化处理的结果作为当前迭代操作中反向传播的梯度值,以更新超网络的参数。该方法可以提升超网络的训练效率。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及人工智能技术领域,尤其涉及用于训练超网络的方法和装置。
背景技术
随着人工智能技术和数据存储技术的发展,深度神经网络在许多领域取得了重要的成果。深度神经网络结构的设计对其性能具有直接的影响。传统的深度神经网络结构的设计由人工根据经验完成。人工设计网络结构需要大量的专家知识,并且针对不同的任务或应用场景需要分别针对性地进行网络结构的设计,成本较高。
NAS(neural architecture search,自动化神经网络结构搜索)是用算法代替繁琐的人工操作,自动搜索出最佳的神经网络架构。目前的一些NAS方法采用包含网络结构搜索空间中的所有网络结构的超网络,超网络内部所有的网络结构在构建不同的子网络时共享参数。
发明内容
本公开的实施例提出了用于训练超网络的方法和装置、电子设备和计算机可读介质。
第一方面,本公开的实施例提供了一种用于训练超网络的方法,包括:通过依次执行多次迭代操作获得训练完成的超网络;迭代操作包括:初始化递归神经网络的参数,并利用递归神经网络对当前的超网络进行采样以获得子网络;响应于确定保存的反向传播的梯度值的数量未达到预设的数量,基于深度学习任务的训练数据对子网络进行训练以获得训练后的子网络的性能信息,对子网络的性能信息进行反向传播以更新超网络的参数,并保存反向传播的梯度值;响应于确定保存的梯度值的数量达到预设的数量,对保存的梯度值进行均一化处理,将均一化处理的结果作为当前迭代操作中反向传播的梯度值,以更新超网络的参数。
在一些实施例中,上述迭代操作还包括:响应于确定超网络满足预设的收敛条件,停止更新超网络的参数;其中,预设的收敛条件包括至少一项:超网络的参数更新率低于预设的阈值,利用递归神经网络对当前的超网络进行采样以获得的子网络的性能信息达到预设的性能约束条件,以及已执行的迭代操作的次数达到预设的次数阈值。
在一些实施例中,上述方法还包括:基于训练完成的超网络对用于从超网络中采样出子网络的递归神经网络进行训练。
在一些实施例中,上述基于训练完成的超网络对用于从超网络中采样出子网络的递归神经网络进行训练,包括:基于当前的递归神经网络的参数,从训练完成的超网络中采样出子网络;对从训练完成的超网络中采样出的子网络进行训练,以获取从训练完成的超网络中采样出的子网络的性能信息,基于从训练完成超网络中采样出的子网络的性能信息生成反馈信息,将反馈信息反馈至递归神经网络,以基于反馈信息更新递归神经网络的参数。
在一些实施例中,上述方法还包括:获取待处理的任务数据;基于待处理的任务数据,采用训练完成的递归神经网络对训练完成的超网络进行采样,得出用于处理待处理的任务数据的子网络;利用用于处理深度学习任务数据的子网络处理待处理的任务数据,得到任务处理结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010116701.7/2.html,转载请声明来源钻瓜专利网。