[发明专利]一种动态混合精度模型构建方法及系统在审
申请号: | 202110491111.7 | 申请日: | 2021-05-06 |
公开(公告)号: | CN113076663A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 郭锴凌;杨弈才;徐向民;邢晓芬 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F30/20 | 分类号: | G06F30/20 |
代理公司: | 广州海心联合专利代理事务所(普通合伙) 44295 | 代理人: | 黄为;冼俊鹏 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 混合 精度 模型 构建 方法 系统 | ||
1.一种动态混合精度模型构建方法,其特征在于,包括以下步骤:
S1、对原始数据进行预处理;
S2、训练一个全精度模型;
S3、给定可选参数精度表S;
S4、根据所述全精度模型中不同块的参数的海森矩阵的迹以及所述可选参数精度表S构建混合精度状态转换表;
S5、将所述全精度模型对自适应量化模型进行参数初始化;
S6、对自适应量化模型进行训练,在训练过程中采用每次迭代随机采样数个混合精度子模型的方式进行量化操作;
S7、自适应量化模型训练后得到混合精度模型;
S8、根据实际部署需求以及混合精度状态转换表挑选合适的混合精度子模型组成混合比特部署状态表进行实际部署。
2.根据权利要求1所述动态混合精度模型构建方法,其特征在于,步骤S5中将自适应量化模型的BN层替换为Switch BN层,以及将ReLU激活函数替换为Switch Clipping Level层。
3.根据权利要求1所述动态混合精度模型构建方法,其特征在于,海森矩阵的迹以其近似值进行表示。
4.根据权利要求3所述动态混合精度模型构建方法,其特征在于,所述近似值的计算方式为
其中Tr(Hi)为所述近似值,T为迭代次数,Hi为海森矩阵,zi为每次迭代重新生成的随机矩阵。
5.根据权利要求4所述动态混合精度模型构建方法,其特征在于,其中gi为训练中损失函数求导得到的梯度,Wi为参数矩阵。
6.根据权利要求5所述动态混合精度模型构建方法,其特征在于,所述步骤S2中在训练前先将参数矩阵缩放到[-1,+1]之间再向前传播,反向传播时则更新该参数矩阵。
7.根据权利要求1所述动态混合精度模型构建方法,其特征在于,所述步骤S4中,先计算每个海森矩阵的平均迹,再根据平均迹大小重排序并按序分组;将可选参数精度表S中的精度根据大小分配至所述分组中,相对较大的精度会被分配至平均迹相对较大的分组中。
8.根据权利要求1所述动态混合精度模型构建方法,其特征在于,在所述步骤S6中,对原浮点型的参数w先进行归一化得到参数其中对归一化后的参数进行量化操作,公式为其中k为量化精度;将量化后的值重新映射为[-1,+1]区间,公式为每次训练迭代都会采样所有混合精度子模型中平均参数精度最低的子模型MIN以及n-1个随机混合精度子模型,即一共采样n个混合精度子模型进行迭代。
9.根据权利要求1所述动态混合精度模型构建方法,其特征在于,所述步骤S8中,部署时设置基于混合精度子模型参数的内存占用大小以及计算量大小设置两种可选的部署测评指标以动态调整最优分类精度;
具体为:
按每个状态的混合精度子模型参数的内存占用大小或计算量大小构建指标测评区间,并平均分为m个子区间;
若当前子区间的最优分类精度优于前一子区间的最优分类精度,则当前子区间的最优分类精度不变;
若当前子区间的最优分类精度劣于前一子区间的最优分类精度,则当前子区间的最优分类精度设置为前一子区间的最优分类精度;
若当前子区间不存在状态,则当前子区间的最优分类精度设置为前一子区间的最优分类精度。
10.一种动态混合精度模型构建系统,其特征在于,利用如权利要求1至9任一所述方法构建混合精度模型,并根据实际部署需求以及混合精度状态转换表挑选合适的混合精度子模型组成混合比特部署状态表进行实际部署。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110491111.7/1.html,转载请声明来源钻瓜专利网。