[发明专利]一种针对CPU和GPU设备搜索神经网络结构的方法在审
申请号: | 202110415478.0 | 申请日: | 2021-04-18 |
公开(公告)号: | CN113033784A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 杜权 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 cpu gpu 设备 搜索 神经网络 结构 方法 | ||
1.一种针对CPU和GPU设备搜索神经网络结构的方法,其特征在于包括以下步骤:
1)设计并确定CPU和GPU设备网络结构的表示空间,包括需要搜索的网络结构的层数、每层的神经元数量和连接方式,使用字符串编码的形式对这些信息进行表示;
2)通过权重共享的方式训练一个全连接的超网,其中不同的子网络共享所有的权重,在每个训练步骤通过均匀采样的方式选择一个子网络进行训练,根据梯度下降的方式对共享的权重进行优化;
3)在不同的硬件平台,包括CPU、GPU设备上运行步骤2)采样得到的子网络,统计其执行一次计算所需的运行时间;
4)利用步骤3)收集的子网络结构和在不同硬件平台上对应的运行时间,训练一个额外的预测器,用于预测不同网络结构在不同硬件平台上对应的运行时间;
5)在全连接的超网上执行进化算法,根据不同硬件平台上的运行时间限制以及不同网络结构在校验集数据上对应的损失搜索出最优网络结构;
6)初始化步骤5)得到的最优网络结构的参数,在训练集数据上重新进行训练直到该神经网络收敛。
2.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法,其特征在于:步骤1)中,使用字符串的形式对离散化的网络结构的组合进行表示,该字符串包含神经网络的层数、每层的神经元数量以及不同层的连接方式。
3.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法,其特征在于:步骤2)中,通过权重共享的方式训练一个全连接的超网,其中不同的子网络共享所有的权重,在每个训练步骤通过均匀采样的方式选择一个子网络进行训练,根据梯度下降的方式对共享的权重进行优化,具体为:
201)选择固定的超网的层数和每层的神经元数量,其数值等于步骤1)中最大的超网的层数和每层的神经元数量,对超网的参数进行随机初始化;
202)训练时,每次在全部的子网络中选择一个子网络进行训练,即只利用超网中的部分层、每层中的部分神经元和部分连接进行训练,通过反向传播的方式对全部的参数进行更新。
4.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法,其特征在于:步骤3)中,在不同的硬件平台,包括CPU、GPU设备上运行步骤2)采样得到的子网络,收集其执行一次前向计算所需的运行时间,具体为:
在CPU、GPU设备上运行步骤2)采样得到的子网络,直接评估其执行一次前向计算所需的运行时间;前向计算只计算得到结果。
5.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法,其特征在于:步骤4)中,利用步骤3)得到的不同子网络在不同硬件平台上的运行时间训练一个预测器,用于预测没有直接评估的子网络所需的运行时间,具体为:
使用循环神经网络作为预测器,其输入为网络结构的编码,输出为预测的该结构在不同硬件上的运行时间,在搜索前对其进行随机初始化,在搜索时使用步骤3)统计的数据进行训练。
6.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法,其特征在于:步骤5)中,在全连接的超网上执行进化算法,根据不同硬件平台上的运行时间限制以及不同网络结构在校验集数据上对应的损失搜索出最优网络结构,具体为:
501)根据搜索过程中收集的运行时间数据,选择100-200个在不同硬件上运行时间最短的网络结构作为初始化种群;
502)通过进化算法,随机交叉、替换或删除种群中的网络结构,使用预测器来预测剩下的网络结构,仅保留时间小于规定阈值的网络结构;
503)检查种群中时间小于规定阈值的网络结构,如果其运行时间达到预设的目标,则停止搜索,否则回到502)步骤。
7.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法,其特征在于:步骤6)中,初始化步骤5)得到的最优网络结构的参数,在训练集数据上重新进行训练直到该神经网络收敛,具体为:
选择步骤5)得到的最优网络结构,对其进行随机初始化,在训练数据集上进行训练直至收敛,保存其参数。
8.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法,其特征在于:超网指的是在执行搜索步骤前,搜索空间中层数、神经元数和神经连接数最多的网络结构,而子网络指的是超网中的一个子模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110415478.0/1.html,转载请声明来源钻瓜专利网。