[发明专利]模型自生长训练加速方法、装置、电子设备和存储介质有效

专利信息
申请号: 202310558620.6 申请日: 2023-05-17
公开(公告)号: CN116306796B 公开(公告)日: 2023-09-15
发明(设计)人: 王业全;姚轶群;张正 申请(专利权)人: 北京智源人工智能研究院
主分类号: G06N3/0455 分类号: G06N3/0455;G06N3/08
代理公司: 北京动力号知识产权代理有限公司 11775 代理人: 林超
地址: 100084 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 模型 生长 训练 加速 方法 装置 电子设备 存储 介质
【说明书】:

发明公开了模型自生长训练加速方法、装置、电子设备和存储介质,属于人工智能技术领域。所述模型自生长训练加速方法包括,从基础神经网络结构中确定一个或多个生长维度;定义与所确定的每个生长维度相关联的基于掩码的生长算子,并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,以实现模型自生长训练。本发明在模型层面上实现了大模型的自生长加速,支持横向和纵向生长,在通过保值性实现知识继承的同时,降低了预训练的时间和算力成本。

技术领域

本发明涉及人工智能技术领域,尤其涉及模型自生长训练加速方法、装置、电子设备和存储介质。

背景技术

大模型是一种基于神经网络和自监督学习技术的,在大规模、广泛来源数据集上训练得到的人工智能基础模型。大模型已经在很多自然语言处理、计算机视觉等人工智能领域取得了显著的成功。大模型在使用之前首先需要进行预训练,预训练的目的是使用尽可能多的自监督数据集对模型进行训练,得到单语言、多语言和多模态等各种应用的模型。然而大模型的预训练成本通常较高。典型的模型如语言大模型GPT-3,算力成本超过一千万美元,完整训练一次需要的时间大约为一个月。因此,如何对大模型加速预训练,是节省科研和工程的时间成本和算力成本的一个紧迫问题。

在大模型预训练加速方面,现有技术主要是采用底层硬件、算法优化的方式,模型层面的优化比较少。如图1所示,现有的模型优化例如模型压缩、模型蒸馏、模型剪枝方法等,在训练进程中只能将原始大模型规模缩小以产出小模型,这不但带来精度的损失,降低了保值性,而且会损失后续的扩展性和知识容量。而对于传统的模型自生长方法,主要采用Net2Net实现,该方法保值性的实现严重依赖于初始化时选择的参数,使得初始权重缺乏优化空间;此外,由于保值性本身的非严格特性,在急剧生长的场景下,该方法无法实现完全的知识继承。

发明内容

为了解决现有技术中存在的模型层面上的大模型加速方法效率不高和保值性较低的问题,本发明提供了如下技术方案。

本发明在第一方面提供了一种模型自生长训练加速方法,包括:

从基础神经网络结构中确定一个或多个生长维度;

定义与所确定的每个生长维度相关联的基于掩码的生长算子,并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,以实现模型自生长训练。

优选地,所述生长维度包括所述基础神经网络结构的隐藏层特征宽度、前馈模块的中间层宽度、自注意力模块的头数量以及所述基础神经网络结构的总层数中的任一个或多个。

优选地,所述利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,进一步包括:

根据所确定的生长维度,在基础神经网络结构中增加对应数量的神经元或全连接神经网络层;

将新增神经元或神经网络层所连接的网络权重进行初始化;

利用全0的掩码与所述新增神经元或神经网络层的输出相乘,并在后续的训练中逐渐将掩码递增到1。

优选地,当确定所述生长维度为所述基础神经网络结构的隐藏层特征宽度或前馈模块的中间层宽度时,将对应的生长算子定义为:

,其中,为掩码,该掩码与生长后的神经网络输出长度相同,在原有的神经元上的值为1,新增神经元上值为0;即生长后的等于原神经网络输出与一个全0向量的拼接,为新增的一层全连接神经网络层的连接权重,为生长前的神经网络输入,是所述基础神经网络结构中的非线性激活函数,和分别是生长之后和生长之前的输出神经元数量,即向量与的长度。

优选地,当确定所述生长维度为自注意力模块的头数量时,将对应的生长算子定义为:

对于原有的头head,将由该头head映射得到的V向量与全1掩码相乘;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310558620.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top