[发明专利]一种神经网络训练方法以及装置在审

申请号：	202110603464.1	申请日：	2021-05-31
公开（公告）号：	CN113505883A	公开（公告）日：	2021-10-15
发明（设计）人：	尹伊淳;尚利峰;蒋欣;陈晓	申请（专利权）人：	华为技术有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06F40/40;G06K9/62
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	聂秀娜
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种神经网络训练方法以及装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了人工智能领域的一种神经网络训练方法以及装置，用于通过在资源约束条件的约束下进行同质搜索，减少搜索空间的大小，高效地搜索得到符合需求的模型。该方法包括：获取超预训练语言模型；获取资源约束条件以及超参数搜索空间，资源约束条件指示针对模型占用的资源的约束，超参数搜索空间指示模型的超参数的范围；在资源约束条件的约束下从超参数搜索空间中搜索出目标模型的结构，目标模型的至少两层网络层的超参数相同；对目标模型进行训练，得到训练后的目标模型。

技术领域

本申请涉及人工智能领域，尤其涉及一种神经网络训练方法以及装置。

背景技术

目前大规模预训练语言模型成为了神经网络训练领域的主导模型，在几乎所有的自然语言理解任务上大大超越了之前的模型。这类模型基于先进的转化器Transformer的结构，在大规模语料(如10G到100G)中通过自监督预训练任务训练得到。但由于这些模型需要庞大的计算资源且推断时间慢，如何将它部署到实际生产环境成为目前的技术挑战。

通常，可以通过模型搜索的方法去构建预训练语言模型或者神经翻译模型，这些方式将改变Transformer的结构，引入结构不同的组件，因此搜索空间和训练代价都巨大，得到最终模型的效率低。

发明内容

本申请提供一种神经网络训练方法以及装置，用于通过在资源约束条件的约束下进行同质搜索，减少搜索空间的大小，高效地搜索得到符合需求的模型。

有鉴于此，第一方面，本申请提供一种神经网络训练方法，包括：获取超预训练语言模型；获取资源约束条件以及超参数搜索空间，资源约束条件指示针对模型占用的资源的约束，超参数搜索空间指示模型的超参数的范围；在资源约束条件的约束下从超参数搜索空间中搜索出目标模型的结构，目标模型的至少两层网络层的超参数相同；对目标模型进行训练，得到训练后的目标模型。

因此，本申请实施方式中，搜索得到的子模型的至少两层网络层的超参数相同，从而需要构建的超参数搜索空间更小，搜索子模型的效率也更高，从而可以高效地搜索得到符合需求的目标模型。且搜索得到的目标模型为同质结构，即至少两层网络层的超参数相同，结构简单，可以在更多的场景中部署该模型，即本申请提供的方法可以应用于多种场景中，泛化能力强。

在一种可能的实施方式中，目标模型的每一层网络层的超参数相同。因此，本申请实施方式中，最终得到的目标模型的各个网络层具有相同的超参数，得到了同质的模型，进而所需的超参数搜索空间的范围也就更小，可以高效地搜索得到满足资源约束条件的模型。

在一种可能的实施方式中，前述的获取超预训练语言模型，可以包括：首先构建神经网络，得到未训练的初始模型；将训练集分为多个子集；从初始模型中采集子模型，得到多个第一子模型；使用多个子集并行对多个第一子模型进行训练，得到超预训练语言模型。

因此，在本申请实施方式中，可以使用训练集并行对初始模型中的子模型进行训练，从而可以提高初始模型的训练效率，更高效地得到超预训练语言模型。

在一种可能的实施方式中，前述的使用多个子集并行对多个第一子模型进行训练，得到超预训练语言模型，可以包括：将多个子集和多个第一子模型分发至多个计算节点，以在多个计算节点中计算多个第一子模型的梯度；根据多个第一子模型的梯度更新初始模型的参数，得到超预训练语言模型。

因此，本申请实施方式中，可以将多个子集和对应的子模型分发至多个计算节点，从而使多个计算节点可以并行计算各个子模型的梯度，从而提高对初始模型的训练效率，高效地得到训练后的模型。

可选地，前述的计算节点可以包括服务器、个人电脑、处理器、进程或者线程等具有处理能力的节点。

在一种可能的实施方式中，前述的根据多个子模型的梯度更新初始模型的参数，得到超预训练语言模型，可以包括：融合多个第一子模型的梯度，得到融合梯度；根据融合梯度更新初始模型的参数，得到超预训练语言模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司，未经华为技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110603464.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种毛绒玩具清洁设备及其使用方法
下一篇：一种山岭隧道二衬钢筋精准装配设备及施工方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种神经网络训练方法以及装置在审

专利文献下载