[发明专利]基于超网络的模型结构采样、装置以及电子设备在审
申请号: | 201910861008.X | 申请日: | 2019-09-11 |
公开(公告)号: | CN110580520A | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 希滕;张刚;温圣召 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 11313 北京市铸成律师事务所 | 代理人: | 王珺;徐瑞红 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型结构 邻居 采样模型 迭代更新 网络 初始化 采样策略 参数共享 电子设备 神经网络 收敛条件 搜索空间 循环迭代 采样 迭代 更新 搜索 申请 保证 | ||
本申请公开了一种基于超网络的模型结构采样方法、装置以及电子设备。涉及神经网络搜索领域。具体实现方案为:获取超网络中初始化的模型结构;迭代更新初始化的模型结构的参数,得到第一个邻居模型结构;根据第一个邻居模型结构的参数进行循环迭代更新,直至满足超网络的收敛条件的情况下,得到第N个邻居模型结构,N大于或等于2;将第一个邻居模型结构至第N个邻居模型结构作为采样模型结构。提出了邻居模型结构进行迭代的采样策略,能够保证参数共享。将每次迭代更新得到的邻居模型结构作为采样模型结构,更新一次超网络的参数,使得超网络的参数能够满足搜索空间中所有的模型结构,且使得这些模型结构的性能都较好。
技术领域
本申请涉及一种计算机视觉领域,尤其涉及一种神经网络搜索领域。
背景技术
深度学习技术在很多方向上都取得了巨大的成功,最近几年NAS技术(NeuralArchitecture Search,神经网络架构搜索)成为研究热点。NAS是用算法代替繁琐的人工操作,在海量的搜索空间中自动搜索出最佳的神经网络架构。超网络的核心思想是通过参数共享的方式,可以同时训练大量网络结构,无需对每一个网络结构进行训练。通过评估模型在超网络的性能,来选择最优的模型结构。采样策略对于基于超网络的搜索非常重要。在模型结构自动搜索的时候,基于采样策略会训练得到一组超网络的参数,模型结构在超网络的参数下的性能指标会作为模型选择的标准。然而,如果采样策略不合适,导致模型结构在根据不合适的采样策略得到的超网络的参数下的性能较差,最终导致基于训练超网络的参数得到的模型结构的性能与直接训练该网络参数得到的网络性能并不一致。
目前,采用基于随机算法的采样策略,每次迭代的时候,随机选取超网络的链路,即随机选取一个网络模型,网络模型对应的各个参数也是随机获取。然而,对于每次迭代,由于完全没有重合的参数,导致在超网络参数反向传播的时候,无法实现参数共享,导致所有的网络模型的性能整体较差。
发明内容
本申请实施例提供一种基于超网络的模型结构采样方法、装置以及电子设备,以解决现有技术中的一个或多个技术问题。
第一方面,本申请实施例提供了一种基于超网络的模型结构采样方法,包括:
获取超网络中初始化的模型结构;
迭代更新初始化的模型结构的参数,得到第一个邻居模型结构;
根据第一个邻居模型结构的参数进行循环迭代更新,直至满足超网络的收敛条件的情况下,得到第N个邻居模型结构,N大于或等于2;
将第一个邻居模型结构至第N个邻居模型结构作为采样模型结构。
在本实施方式中,提出了邻居模型结构进行迭代的采样策略,邻居模型结构之间的连接方式中,只有少量操作选择不同,能够保证参数共享。将每次迭代更新得到的邻居模型结构作为采样模型结构,更新一次超网络的参数,使得超网络的参数能够满足搜索空间中所有的模型结构,且使得这些模型结构的性能都较好。
在一种实施方式中,还包括:
从第一个邻居模型结构至第N个邻居模型结构中,连续选择多组邻居模型结构,每组邻居模型结构包括M个邻居模型结构,M大于或等于1;
获取每组邻居模型结构对应的至少一个梯度,并根据至少一个梯度计算每组邻居模型结构对应的平均梯度;
利用每组邻居模型结构对应的平均梯度更新一次超网络的参数。
在本实施方式中,利用每组邻居模型结构对应的平均梯度更新一次超网络的参数,直至超网络收敛,停止更新,能够提高超网络的参数的准确率。
在一种实施方式中,还包括:
从第一个邻居模型结构至第N个邻居模型结构中,连续选择多组邻居模型结构,相邻两组邻居模型结构中的邻居模型结构的个数均相差第一阈值个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910861008.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种卷积运算装置及其方法
- 下一篇:一种自组织协同神经网络模型学习及构建方法