[发明专利]神经网络训练的方法、神经网络的压缩方法以及相关设备在审
申请号: | 202011057004.5 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112183747A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 孟笑君;王雅圣;张正彦;岂凡超;刘知远 | 申请(专利权)人: | 华为技术有限公司;清华大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 李杭 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 训练 方法 压缩 以及 相关 设备 | ||
1.一种神经网络的训练方法,其特征在于,所述方法包括:
将第一训练数据输入第一特征提取网络,得到所述第一特征提取网络输出的与所述第一训练数据对应的N个第一特征信息,所述N为大于1的整数;
根据所述N个第一特征信息,计算第一分布信息,所述第一分布信息用于指示所述N个第一特征信息的数据分布规律;
通过第一神经网络,对所述第一特征提取网络执行剪枝操作,得到剪枝后的第一特征提取网络;
将所述第一训练数据输入所述剪枝后的第一特征提取网络,得到所述剪枝后的第一特征提取网络输出的与所述第一训练数据对应的N个第二特征信息;
根据所述N个第二特征信息,计算第二分布信息,所述第二分布信息用于指示所述N个第二特征信息的数据分布规律;
根据第一损失函数,对所述第一神经网络执行训练操作,得到第二神经网络,所述第一损失函数指示所述第一分布信息与所述第二分布信息之间的相似度。
2.根据权利要求1所述的方法,其特征在于,
所述第一分布信息包括所述N个第一特征信息中任意两个第一特征信息之间的距离的值,以指示所述N个第一特征信息的数据分布规律;
所述第二分布信息包括所述N个第二特征信息中任意两个第二特征信息之间的距离的值,以指示所述N个第二特征信息的数据分布规律。
3.根据权利要求1或2所述的方法,其特征在于,所述第一特征提取网络为转换器(Transformer)结构的神经网络中的特征提取网络,所述第一特征提取网络中包括至少两个注意力头;
所述通过第一神经网络,对所述第一特征提取网络执行剪枝操作,得到剪枝后的第一特征提取网络,包括:
通过所述第一神经网络,对所述第一特征提取网络包括的所述至少两个注意力头执行剪枝操作,得到所述剪枝后的第一特征提取网络,所述剪枝后的第一特征提取网络包括的注意力头的数量少于所述第一特征提取网络包括的注意力头的数量。
4.根据权利要求3所述的方法,其特征在于,所述通过所第一神经网络,对所述第一特征提取网络包括的所述至少两个注意力头执行剪枝操作,包括:
通过所述第一神经网络,生成所述至少两个注意力头中每个注意力头的第一评分;
根据与所述至少两个注意力头对应的至少两个第一评分,对所述至少两个注意力头执行剪枝操作。
5.根据权利要求4所述的方法,其特征在于,所述通过所述第一神经网络,生成所述至少两个注意力头中每个注意力头的第一评分,包括:
将所述至少两个注意力头中每个注意力头输入所述第一神经网络,得到所述第一神经网络输出的所述每个注意力头的第二评分;
对所述第二评分进行离散化处理,得到所述第一评分,所述离散化处理的过程为可微分的。
6.根据权利要求1或2所述的方法,其特征在于,所述第一训练数据包括N个句子,一个第一特征信息为所述N个句子中一个句子的特征信息;或者,
所述第一训练数据为一个句子,所述一个句子中包括N个词语,一个第一特征信息为所述N个词语中一个词语的特征信息。
7.根据权利要求1或2所述的方法,其特征在于,所述第一神经网络为以下中的任一种神经网络:卷积神经网络、循环神经网络、残差神经网络或全连接神经网络。
8.一种神经网络的压缩方法,其特征在于,所述方法包括:
获取第二特征提取网络;
通过第二神经网络,对所述第二特征提取网络进行剪枝,得到剪枝后的所述第二特征提取网络,其中,所述第二神经网络为根据第一损失函数进行训练得到的,所述第一损失函数指示第一分布信息与第二分布信息之间的相似度,所述第一分布信息用于指示N个第一特征信息的数据分布规律,所述N个第一特征信息为将第一训练数据输入第一特征提取网络后得到的,所述第二分布信息用于指示所述N个第二特征信息的数据分布规律,所述N个第二特征信息为将所述第一训练数据输入剪枝后的所述第一特征提取网络后得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;清华大学,未经华为技术有限公司;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011057004.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种一体化运动控制器
- 下一篇:八路完全对称的分布式片上变压器