[发明专利]一种神经网络训练方法以及装置在审
申请号: | 202110603464.1 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113505883A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 尹伊淳;尚利峰;蒋欣;陈晓 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F40/40;G06K9/62 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 聂秀娜 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 训练 方法 以及 装置 | ||
1.一种神经网络训练方法,其特征在于,包括:
获取超预训练语言模型;
获取资源约束条件以及超参数搜索空间,所述资源约束条件指示针对模型占用的资源的约束,所述超参数搜索空间指示模型的超参数的范围;
在资源约束条件的约束下从所述超参数搜索空间中搜索出目标模型的结构,所述目标模型的至少两层网络层的超参数相同;
对所述目标模型进行训练,得到训练后的目标模型。
2.根据要求1所述的方法,其特征在于,所述获取超预训练语言模型,包括:
构建神经网络,得到初始模型;
将训练集分为多个子集;
从所述初始模型中采集子模型,得到多个第一子模型;
使用所述多个子集并行对所述多个第一子模型进行训练,得到所述超预训练语言模型。
3.根据权利要求2所述的方法,其特征在于,所述使用所述多个子集并行对所述多个第一子模型进行训练,得到所述超预训练语言模型,包括:
将所述多个子集和所述多个第一子模型分配至多个计算节点,以在所述多个计算节点中计算所述多个第一子模型的梯度;
根据所述多个第一子模型的梯度更新所述初始模型的参数,得到所述超预训练语言模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个子模型的梯度更新所述初始模型的参数,得到所述超预训练语言模型,包括:
融合所述多个第一子模型的梯度,得到融合梯度;
根据所述融合梯度更新所述初始模型的参数,得到所述超预训练语言模型。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述在资源约束条件的约束下从所述超参数搜索空间中搜索出目标模型的结构,包括:
在资源约束条件的约束下,从所述超参数搜索空间中搜索得到至少一个模型结构,所述至少一个模型结构中每个模型结构对应的模型的至少两层网络层的超参数相同;
从所述超预训练语言模型中采集与所述至少一个模型结构对应的至少一个第二子模型;
根据所述至少一个第二子模型从所述至少一个模型结构中筛选出输出结果符合预设条件的模型结构,得到所述目标模型的结构。
6.根据权利要求5所述的方法,其特征在于,所述从所述超预训练语言模型中采集与所述至少一个模型结构对应的至少一个第二子模型包括:
从所述初始模型中采集子模型,得到至少一个第三子模型;
从所述至少一个第三子模型中的每个第三子模型的每层网络层中采集至少一个模块,得到所述至少一个第二子模型。
7.根据权利要求5所述的方法,其特征在于,所述在资源约束条件的约束下,从所述超参数搜索空间中搜索出至少一个模型结构,包括:
获取多个模型结构对应的模型在硬件中运行的多个运行结果,所述多个模型是从所述超参数搜索空间搜索得到的模型结构;
从所述多个模型结构中筛选出运行结果符合所述资源约束条件的模型结构,得到所述至少一个模型结构。
8.根据权利要求5-7中任一项所述的方法,其特征在于,所述根据所述至少一个第二子模型从所述至少一个模型结构中筛选出输出结果符合预设条件的模型结构,得到所述目标模型的结构,包括:
使用测试集对所述至少一个第二子模型的输出结果进行评估,得到每个第二子模型的评估结果;
根据所述每个第二子模型的评估结果从所述至少一个模型结构中筛选出符合所述预设条件的模型的结构;
将所述符合所述预设条件的模型的结构,作为所述目标模型的结构。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述符合所述预设条件的模型的结构,构建得到所述目标模型;
或者,从所述超预训练语言模型中采集对应的子模型,得到所述目标模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110603464.1/1.html,转载请声明来源钻瓜专利网。