[发明专利]一种面向物料识别的神经网络推理加速方法有效
申请号: | 202110549464.8 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113222148B | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 孟文超;朱建新;徐金明;董超;陈军;陈雪超;林学忠 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 物料 识别 神经网络 推理 加速 方法 | ||
1.一种面向物料识别的神经网络推理加速方法,其特征在于,包括以下步骤:
1)利用物料识别数据集中的训练集训练基于卷积神经网络架构的全精度物料识别网络,记录全精度网络的准确率,同时保存训练好的网络权重;
2)从训练集中随机抽取部分图片作为量化校准数据集;
3)用校准数据集对训练好的全精度网络进行训练后量化,量化精度采用16比特量化,得到全16比特量化后网络的准确率,并记录最后一个全连接层的输出特征;
4)基于全16比特量化后的网络,从第一层开始依次将每一层的量化精度调整到8比特,保持其他层为16比特不变,记录每一层调整为8比特后网络最后一个全连接层的输出特征;
5)计算步骤3)得到的全16比特量化的输出特征与步骤4)得到的各层调整到8比特量化对应的输出特征的余弦距离,并将所有余弦距离按从小到大排列,作为网络不同层对8比特量化敏感度的排序;
6)获取实际推理时对物料识别网络的最低准确率要求;
7)运用训练后量化方法将网络量化到全8比特,并根据最低准确率要求,按照步骤5)得到的不同层量化敏感度排序,依次将全8比特量化网络中对量化最敏感的层调整为16比特量化,直到网络准确率达到最低要求,从而得到混合精度网络;
8)将步骤7)得到的混合精度网络和物料识别数据集分发到云端设备和边缘端设备上;
9)云端和边缘端分别用物料识别数据集进行混合精度网络推理,计算每一层在云端和边缘端的推理延迟,并记录每一层的输出数据量;
10)边缘端记录实时网络带宽情况;
11)边缘端根据步骤9)得到的云边推理延迟和每一层的输出数据量,以及步骤10)得到的网络当前带宽,根据网络划分算法,以最小化网络整体推理延迟为优化目标,确定网络划分点,并将划分点结果上传至云端;网络划分算法的实现如下:
记录混合精度网络每层在边缘端上的推理延迟Te=[Te1,Te2,…,TeL],其中L表示网络总层数,记录混合精度网络每层在云端上的推理延迟Tc=[Tc1,Tc2,…,TcL],记录该网络每层的输出数据量S=[S1,S2,…,SL-1],记录当前的网络带宽B;
增加正则化项λ×Q,λ为正则化项的尺度因子,λ值越大,表示正则化项在优化公式中起的作用越大,越偏向于选取8比特量化层为划分点;Q为量化标志位,若该层为16比特量化层则Q为1,若该层为8比特量化层则Q为0;
网络整体推理延迟包括边缘端推理延迟、数据传输延迟、云端推理延迟和正则化项四部分;通过选取合适的网络划分点,使总推理延迟Ttotal最少,相应的优化问题表示如下:
j=1,2,....,L
其中,表示边缘端的推理延迟,表示云端的推理延迟,表示中间输出特征传输延迟;
12)边缘端根据输入的物料识别数据集,进行第一层到划分点的推理过程,并将推理结果上传至云端;
13)云端根据边缘端发来的划分点前的推理结果作为输入,执行划分点到最后一层的网络推理;
14)云端将最后得到的推理结果,即物料识别结果发送给边缘端,结束推理。
2.根据权利要求1所述的一种面向物料识别的神经网络推理加速方法,其特征在于,所述卷积神经网络架构采用有向无环图式模型,要求训练好的全精度模型准确率必须要大于实际推理要求的最低准确率;采用的深度学习框架为pytorch,云端和边缘端中网络的推理过程都基于pytorch实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110549464.8/1.html,转载请声明来源钻瓜专利网。