[发明专利]模型压缩方法、系统和计算设备有效
申请号: | 202110142167.1 | 申请日: | 2021-02-02 |
公开(公告)号: | CN112508194B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 杨新星;周俊;李龙飞 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京市一法律师事务所 11654 | 代理人: | 刘荣娟 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 压缩 方法 系统 计算 设备 | ||
1.一种模型压缩方法,包括,通过至少一个计算设备:
用训练数据集中至少部分训练数据训练目标模型,直至所述目标模型的损失函数收敛到预设范围内,所述目标模型用来学习目标系统的输出同输入的对应关系,所述损失函数用来估量所述目标模型的预测值与真实值的不一致程度;
执行模型压缩操作,包括:
对所述目标模型的多个节点对应的多个向量中的每个向量:通过所述向量中每个参数值以及所述参数在所述训练中的梯度值,确定所述向量的重要性值,所述向量的重要性值同所述每个参数的重要性正相关,所述参数为非零参数,所述向量为非稀疏向量,所述参数的重要性值为(wj·gj)2,其中wj为所述参数的数值,gj为所述参数的梯度值;以及
从所述目标模型中删除所述多个向量中重要性值最低的K个向量,获得更新后的目标模型,所述K为自然数;以及
用所述训练数据集中至少部分数据训练所述更新后的目标模型,直至所述更新后的目标模型损失函数收敛到所述预设范围内;以及
输出压缩了的目标模型。
2.根据权利要求1所述的方法,还包括:
基于所述训练,自主地确定所述多个向量中的每个向量的重要性值;以及
选择所述多个向量中重要性值最低的K个向量,
其中所述多个向量为多个特征嵌入向量。
3.根据权利要求1所述的方法,其中,
所述确定所述向量的重要性值包括:
获取所述向量中所有参数的数值及其在所述训练中的梯度值,以及
基于每个参数的数值及其梯度值,确定相应的向量的重要性值。
4.根据权利要求3所述的方法,其中,所述向量的重要性值包括所述向量中的每个参数的重要性值之和。
5.根据权利要求1所述的方法,其中,所述训练所述更新后的目标模型包括通过预设的学习率训练所述更新后的目标模型,直至所述更新后的目标模型的损失函数收敛到所述预设范围内。
6.根据权利要求1所述的方法,还包括:反复迭代执行所述模型压缩操作,直至所述目标模型达到预设的压缩比。
7.根据权利要求1所述的方法,还包括:反复迭代执行所述模型压缩操作,直至迭代次数达到预设的迭代次数。
8.根据权利要求1所述的方法,其中,所述目标模型包括卷积神经元网络模型、递归神经元网络模型、循环神经元网络模型中的一个或者多个。
9.一种模型压缩系统,包括:
模型训练模块,被配置为用训练数据集中至少部分数据训练目标模型,直至所述目标模型的损失函数收敛到预设范围内,所述损失函数用来估量所述目标模型的预测值与真实值的不一致程度;以及
模型压缩模块,被配置为执行模型压缩操作,所述模型压缩操作包括:
对所述目标模型的多个节点对应的多个向量中的每个向量:通过所述向量中每个参数值以及所述参数在所述训练中的梯度值,确定所述向量的重要性值,所述向量的重要性值同所述每个参数重要性值正相关,所述参数为非零参数,所述向量为非稀疏向量,所述参数的重要性值为(wj·gj)2,其中wj为所述参数的数值,gj为所述参数的梯度值;以及
从所述目标模型中删除所述多个向量中重要性值最低的K个向量,获得更新后的目标模型,所述K为自然数;以及
用所述训练数据集中至少部分数据训练所述更新后的目标模型,直至所述更新后的目标模型的损失函数收敛到所述预设范围内。
10.根据权利要求9所述的系统,其中,模型压缩模块被配置为基于所述训练,自主地确定所述多个向量中的每个向量的重要性值;以及
选择所述多个向量中所述重要性值最低的K个向量,
其中所述多个向量为多个特征嵌入向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110142167.1/1.html,转载请声明来源钻瓜专利网。