[发明专利]关于二值权重DenseNet模型的混合流水式加速架构及加速方法有效
申请号: | 202010788798.6 | 申请日: | 2020-08-07 |
公开(公告)号: | CN112001492B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 黄以华;曾世豪;黄文津;陈清坤 | 申请(专利权)人: | 中山大学 |
主分类号: | G06N3/082 | 分类号: | G06N3/082;G06N3/0464;G06F9/38 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关于 权重 densenet 模型 混合 流水 加速 架构 方法 | ||
1.一种关于二值权重DenseNet模型的混合流水式加速架构,其特征在于:包括控制单元,片上存储模块,顶层模块;
所述的控制单元,用于根据各个模块的状态指示信号,协调顶层模块的流水线工作,控制数据的输入输出;
所述的片上存储模块,用于存储网络参数;
所述的顶层模块设有7个,顶层模块之间通过插入ping-pong缓存结构实现流水式并行工作,7个所述的顶层模块分别为首层、第一密集块、第一过渡层、第二密集块、第二过渡层、第三密集块、分类层;
对DenseNet的第一密集块、第二密集块、第三密集块分别设置一个可复用卷积计算单元对其进行处理;
所述的首层是一个卷积层,对来自片外存储的输入图片数据进行处理,将数据依次输入第一密集块、第一过渡层、第二密集块、第二过渡层、第三密集块、分类层进行处理;
所述的分类层,用于将产生分类结果存储到片外存储模块;
所述的顶层模块之间通过插入ping-pong缓存结构实现流水式并行工作,具体如下:在密集块处理过程中,输入特征图和输出特征图共用一个存储空间,当前级的输出特征图有效并且当前密集块的“缓存A”或“缓存B”空闲时,前级模块即可将输出特征图转移到密集块的缓存空间,此时前级模块的缓存得到释放;
为了提高数据的访问效率,对网络特征图和二值卷积设置相应的存储格式,具体如下:
对于网络特征图存储格式:假设特征图尺寸为(C,H,W),C表示特征图的通道数量,H和W则分别表示单通道特征图的高和宽;通过采用的CHWTi格式将C维度的Ti表示输入并行度个数据组合为一个新的数据,其中Ti表示输入并行度,将特征图被分成ceil(C/Ti)个部分,并指定顺序在存储空间连续存放;Ti表示当前密集块的输入并行度;
对于二值卷积参数的存储格式,假设卷积核尺寸为(N,C,K,K),N表示输出特征图,C表示输出特征图的数量,K表示卷积核的大小;每个地址存储K*K*Ti bits的组合参数,用于Ti个输入特征图的部分卷积;而每组卷积核可分成ceil(C/Ti)个组合参数,并且按照指定顺序在存储空间连续存放;
根据以上数据存储格式,对典型卷积层数据流进行优化,并结合密集块的输入输出并行度和顶层模块的ping-pong缓存结构,设置与之相应的计算单元的并行度系数,从而提高计算效率。
2.根据权利要求1所述的关于二值权重DenseNet模型的混合流水式加速架构,其特征在于:所述的密集块设有16层,每层包括两个子层,分别是1x1卷积和3x3卷积;所述的首层完成一次3x3卷积处理;所述的分类层包括一个8x8平均池化层和全连接层,产生分类结果。
3.根据权利要求2所述的关于二值权重DenseNet模型的混合流水式加速架构,其特征在于:所述的可复用卷积单元支持1x1卷积和3x3卷积,用于完成密集块的数据处理。
4.根据权利要求3所述的关于二值权重DenseNet模型的混合流水式加速架构,其特征在于:所述的可复用卷积单元包括卷积处理模块、输出缓存单元、第一选择器、中间结果数据存储单元、密集块数据存储单元、第二选择器、输入缓存单元、BN_Relu处理模块;
所述的卷积处理模块包括To个输出特征图处理单元、且每个输出特征图处理单元包括Ti个3x3二值卷积器和一个累加树,其中3x3二值卷积器包含9个二值卷积运算单元;
对于1x1卷积的数据流,首先,1x1卷积通过第二选择器从密集块数据存储逐行获取输入特征图,经由输入缓存单元处理后产生数据提供给BN_Relu处理模块,然后由卷积处理模块进行卷积运算;内循环的中间结果保存在输出缓存单元,当一次外循环结束时,部分卷积结果将会通过第一选择器写入中间结果数据缓存单元,直到所有外循环结束;然后进行3x3卷积;
对于3x3卷积的数据流,首先,1x1卷积通过第二选择器从中间结果数据缓存单元获取1x1卷积结果;经由输入缓存单元处理后产生数据提供给BN_Relu处理模块,然后由卷积处理模块进行卷积运算;内循环的中间结果保存在输出缓存单元,当一次外循环结束时,部分卷积结果将会通过第一选择器写入密集块数据存储单元的新空间,直到所有外循环结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010788798.6/1.html,转载请声明来源钻瓜专利网。