[发明专利]一种多模型合并压缩方法在审
申请号: | 201911253771.0 | 申请日: | 2019-12-09 |
公开(公告)号: | CN113033763A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 曹骁翔;杨奎元 | 申请(专利权)人: | 深动科技(北京)有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 上海方本律师事务所 31269 | 代理人: | 汪玉平;白杨 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 合并 压缩 方法 | ||
本发明涉及一种多模型合并压缩方法,包括如下步骤:步骤S1:对每个模型分别进行独立训练;步骤S2:分离每个模型的底层与高层;步骤S3:通过映射层连接底层和高层;步骤S4:训练映射层;步骤S5:训练完毕后,对训练好的新模型进行评估,选择最优结果。本发明的优点在于降低产品中多个模型作为整体时其中的冗余结构,可以节省大量的底层耗时计算,从而可以提高产品的运行效率。
技术领域
本发明涉及一种模型压缩方法,尤其涉及在深度学习领域的多模型合并压缩方法。
背景技术
模型压缩是深度学习算法在部署和产品化过程中的重要步骤。通常,算法训练时会使用参数量较大的深度学习模型(大模型)。使用大模型是由于大模型的学习能力强,易于训练。
然而,在算法部署和产品化阶段,大模型庞大的参数量就变得很冗余了,再使用会引发诸多问题:
(1)大模型参数量很大,带来了很大的存储和计算量,降低算法运行效率的同时,增加了产品的功耗;
(2)大模型计算量大,对芯片的计算能力会有很高的要求,这限制了部署芯片的选择,进而也可能会增加产品的成本;
(3)每个模型往往只是一个功能模块,最终的产品往往包含很多模型,单个模型的规模如果很庞大,必然就限制了产品中所以包含模块的数量。
因而在算法部署时,往往会在尽量不损失性能的情形下对模型进行压缩。常规的压缩方式有剪枝,蒸馏和量化。
传统模型压缩主要针对单个模型进行操作,降低了每个模型自身的冗余部分。然而,对于包含了许多算法模型的产品而言,多模型从整体上依然存在可以消除的冗余结构。传统模型压缩针对单个模型,并不能对这部分冗余结构进行整体优化。
申请号为201210358480.X中国发明公开了一种用于北斗发送通用航空器经纬位置数据的多模型压缩方法,包含步骤一,根据实际情况确定经纬度和高度数据的精度并对数据进行截断处理;步骤二,基于一个或一个以上的假设模型对步骤一中经过截断处理的数据分别进行预测编码;步骤三,对步骤二中得到的多组预测编码数据分别进行霍夫曼编码;步骤四,对步骤三中得到的多组霍夫曼编码分别生成压缩数据的数据头和压缩数据体,选择字节数最小的作为最终的压缩结果;步骤五,数据的解压缩。
发明内容
为了解决现有技术的不足,本发明的目的是提供一种能降低产品中多个模型作为整体时的冗余结构的多模型合并压缩方法。
为了实现上述目的,本发明提供的一种多模型合并压缩方法,包括如下步骤:
步骤S1:对每个模型分别进行独立训练和压缩;
步骤S2:分离每个模型的底层与高层;
步骤S3:通过映射层连接底层和高层;
步骤S4:训练映射层;
步骤S5:训练完毕后,对训练好的新模型进行评估,选择最优结果。
有利地,还包括步骤S6,即将最优结果部署在最终产品上。
在步骤S1中,对每个模型分别进行独立训练和压缩,训练和压缩的结果作为多模型合并压缩的输入。
每个模型均采用ResNet-18作为网络的骨干。
在所述步骤S2中,分别将每个模型的底层L和高层H剥离出来,所述底层是前五层卷积层。
在所述步骤S3中,分别用额外的卷积层作为各模型的映射层M,并将底层L、映射层M和高层H分别对应组合。
在所述步骤S4中,在每个模型原本任务上训练所述步骤S3所构造出的新网络,训练时,冻结底层L和高层H,只训练映射层M。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深动科技(北京)有限公司,未经深动科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911253771.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:生物安全柜
- 下一篇:控制系统、外部照明系统、轨道车辆、控制方法及终端