[发明专利]基于深度卷积对抗生成网络的无数据模型量化压缩方法有效
申请号: | 201911214493.8 | 申请日: | 2019-12-02 |
公开(公告)号: | CN111008694B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 戚琦;王敬宇;路晏;朱少雄;孙海峰;王晶;王纯;刘国泰 | 申请(专利权)人: | 许昌北邮万联网络技术有限公司;北京邮电大学 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/0475;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 461000 河南省许昌市城乡一体*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 卷积 对抗 生成 网络 数据模型 量化 压缩 方法 | ||
1.基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:所述方法包括如下操作步骤:
(1)构造一个深度卷积对抗生成网络,其中将待量化分类模型作为该深度卷积对抗生成网络中的判别模型;
(2)只对所述的深度卷积对抗生成网络中的生成模型进行训练,不再对所述的深度卷积对抗生成网络中的判别模型进行训练;
(3)所述生成模型训练完成后,利用所述的深度卷积对抗生成网络中的生成模型生成数据集,作为待量化分类模型的训练集;然后用所得到的训练集对待量化分类模型进行量化压缩。
2.根据权利要求1所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:所述步骤(1)中所构造的深度卷积对抗生成网络的生成模型的主要功能是:输入为一个随机向量,通过连续的线性变化、卷积、上采样以及激活函数的处理,最终输出一张1通道或者3通道的图片;所述的向生成模型输入的随机向量的维度大小和输出图片的格式要根据需要进行设定。
3.根据权利要求1所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:所述步骤(2)的具体内容是包括如下操作步骤:
(21)向所述的生成模型输入随机向量;
(22)所述的生成模型生成图片;
(23)把生成的图片输入所述的判别模型;
(24)所述的判别模型对输入的图片进行分类;
(25)根据所述分类结果计算损失函数的数值;
(26)根据损失函数的数值,并按照反向传播算法,对所述生成模型的参数进行更新;
(27)重复上述步骤,直到所述的生成模型可以稳定生成合格的训练集。
4.根据权利要求3所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:所述步骤(25)中的损失函数loss定义如下:
loss=α×Hy-β×Hb
其中α和β分别为批次响应信息熵Hy与批次类别信息熵Hb的权重,α,β≥0;α和β是模型的超参数,具体选择依赖于不同分类模型与任务的具体情况,一般的任务可以取α=β=1,如果要压缩的模型分类较多或者训练出的生成模型生成图片的类别不平均需要继续训练,则可适当的调高β参数或者降低α参数从而使得类别更加均衡;
所述批次响应信息熵Hy定义如下:
其中H为求解信息熵的函数,其具体表达式为Hy为一个批次的各个生成数据的分类结果的信息熵平均值;所述分类结果yj是在一个批次Batch中将生成模型生成的第j张图片输入待压缩的分类模型即所述的判别模型,得到的分类结果;再通过P(yj)=softmax(yj)求得分类概率,其中其中yjk是所述分类结果yj中的第k个分量;P(yjk)是所述所得到的分类结果yj中,第k个分类的概率,即向量P(yj)中编号为k的值;NB为该批次Batch中样本的个数;NClasses为类别的数目;
所述批次类别信息熵Hb定义如下:
求出一个批次Batch中编号为i的样本的分类结果的独热编码one-hot encoding zi,具体方法是:在该批次Batch中将生成模型生成的第i张图片输入到待压缩的分类模型即所述的判别模型,得到分类结果yi;在分类结果yi中找到响应值最大的类别即理想类别,求出该理想类别的独热编码即为zi;
求出该批次Batch中各个分类的类别数量总和进而求出每个类别概率的平均值PB=zB/NB,PB表示在所述的整个批次中各个类别的出现概率,PB(j)表示该批次中编号为j的类别的出现概率;NClasses为类别的数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于许昌北邮万联网络技术有限公司;北京邮电大学,未经许昌北邮万联网络技术有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911214493.8/1.html,转载请声明来源钻瓜专利网。