[发明专利]模型自生长训练加速方法、装置、电子设备和存储介质有效
申请号: | 202310558620.6 | 申请日: | 2023-05-17 |
公开(公告)号: | CN116306796B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 王业全;姚轶群;张正 | 申请(专利权)人: | 北京智源人工智能研究院 |
主分类号: | G06N3/0455 | 分类号: | G06N3/0455;G06N3/08 |
代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 林超 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 生长 训练 加速 方法 装置 电子设备 存储 介质 | ||
1.一种模型自生长训练加速方法,其特征在于,包括:
从用于视觉模型或语音模型的基础神经网络结构中确定一个或多个生长维度;
定义与所确定的每个生长维度相关联的基于掩码的生长算子,并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,以实现模型自生长训练;
所述利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,进一步包括:
根据所确定的生长维度,在基础神经网络结构中增加对应数量的神经元或全连接神经网络层;
将新增神经元或神经网络层所连接的网络权重进行初始化;
利用全0的掩码与所述新增神经元或神经网络层的输出相乘,并在后续的训练中逐渐将掩码递增到1;
其中,所述在后续的训练中逐渐将掩码递增到1,进一步包括:
在网络训练时的每一次梯度更新之后,以固定的增量对掩码值进行递增,使得在预设次数的训练之后,将所述掩码值逐步增加到1并保持;
当确定所述生长维度为自注意力模块的头数量时,将对应的生长算子定义为:
对于原有的头head,将由该头head映射得到的V向量与全1掩码相乘;
对于新增的头head,将由该头head映射得到的V向量上与全0掩码相乘;
当确定所述生长维度为总层数时,将对应的生长算子定义为:
,
其中,为掩码,对于新增的神经网络层,值为0,和分别为第n层神经网络层的输出和输入。
2.根据权利要求1所述的模型自生长训练加速方法,其特征在于,所述生长维度包括所述基础神经网络结构的隐藏层特征宽度、前馈模块的中间层宽度、自注意力模块的头数量以及所述基础神经网络结构的总层数中的任一个或多个。
3.根据权利要求2所述的模型自生长训练加速方法,其特征在于,当确定所述生长维度为所述基础神经网络结构的隐藏层特征宽度或前馈模块的中间层宽度时,将对应的生长算子定义为:
,
其中,为掩码,该掩码与生长后的神经网络输出长度相同,在原有的神经元上的值为1,新增神经元上值为0;即生长后的等于原神经网络输出与一个全0向量的拼接,为新增的神经网络层的连接权重,为生长前的神经网络输入,是所述基础神经网络结构中的非线性激活函数,和分别是生长之后和生长之前的输出神经元数量,即与的长度。
4.根据权利要求1所述的模型自生长训练加速方法,其特征在于,在所述基础神经网络结构的层归一化结构中,将归一化均值和方差的生长算子定义为:
,
,
其中,为掩码,为生长后的神经网络输入,该掩码与输入长度相同,对原有神经元而言为1,对新增神经元则为0,为生长后的神经网络输入和分别为生长后的归一化均值和方差。
5.一种模型自生长训练加速装置,其特征在于,包括:
生长维度确定单元,用于从用于视觉模型或语音模型的基础神经网络结构中确定一个或多个生长维度;
自生长训练单元,用于定义与所确定的每个生长维度相关联的基于掩码的生长算子,并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,以实现模型自生长训练;
所述自生长训练单元,进一步用于:
根据所确定的生长维度,在基础神经网络结构中增加对应数量的神经元或全连接神经网络层;
将新增神经元或神经网络层所连接的网络权重进行初始化;
利用全0的掩码与所述新增神经元或神经网络层的输出相乘,并在后续的训练中逐渐将掩码递增到1;
其中,所述在后续的训练中逐渐将掩码递增到1,进一步包括:
在网络训练时的每一次梯度更新之后,以固定的增量对掩码值进行递增,使得在预设次数的训练之后,将所述掩码值逐步增加到1并保持;
当确定所述生长维度为自注意力模块的头数量时,将对应的生长算子定义为:
对于原有的头head,将由该头head映射得到的V向量与全1掩码相乘;
对于新增的头head,将由该头head映射得到的V向量上与全0掩码相乘;
当确定所述生长维度为总层数时,将对应的生长算子定义为:
,
其中,为掩码,对于新增的神经网络层,值为0,和分别为第n层神经网络层的输出和输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310558620.6/1.html,转载请声明来源钻瓜专利网。