[发明专利]一种用于脉动阵列结构的数据重组方法在审
申请号: | 201910857692.4 | 申请日: | 2019-09-09 |
公开(公告)号: | CN110674927A | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 胡塘;徐志伟 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063 |
代理公司: | 33200 杭州求是专利事务所有限公司 | 代理人: | 贾玉霞 |
地址: | 311121 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种用于脉动阵列结构的数据重组方法,该方法首先从片外DDR存储体遵循原始数据的NCHW格式将输入特征图读入到缓冲,然后以卷积核二维平面尺寸为基本单元读取输入特征图,并沿着步长S移动方向给脉动阵列的各行输入端口分别提供卷积所需输入特征图数据,每个卷积核分别给脉动阵列的对应各列输入端口提供权重系数,输入特征图数据和相应的权重系数在脉动阵列的各个PE运算单元中完成卷积运算,然后依次输出卷积计算结果。该方法节省了数据重组过程中的软硬件开销,简化了数据调度重组设计的复杂度,优化了数据重组电路时序,同时减少片外DRAM访问次数从而降低了脉动阵列整体功耗。 | ||
搜索关键词: | 脉动阵列 输入特征 权重系数 输入端口 卷积核 图数据 读取 脉动阵列结构 数据重组电路 数据重组过程 时序 二维平面 基本单元 卷积计算 卷积运算 数据调度 数据重组 移动方向 原始数据 整体功耗 重组设计 复杂度 软硬件 读入 缓冲 卷积 输出 优化 访问 | ||
【主权项】:
1.一种用于脉动阵列结构的数据重组方法,所述的脉动阵列的尺寸为n行×m列,所述的输入特征图有N个通道,所述的卷积核也有N个通道,其特征在于,该方法具体包括如下步骤:/nS1:先从片外DDR存储体遵循原始数据的NCHW格式将输入特征图读入到缓冲;/nS2:在水平方向,遵循原始数据的NCHW格式,以第0通道的卷积核二维平面尺寸为基本单元读取对应0通道的输入特征图数据,并沿着步长S移动方向逐行从左至右给脉动阵列的各行输入端口分别提供卷积所需输入特征图数据;以第1通道的卷积核二维平面尺寸为基本单元读取对应第1通道的输入特征图数据,并沿着步长S移动方向逐行从左至右给脉动阵列的各行输入端口分别提供卷积所需输入特征图数据;以此类推,直至以第N-1通道的卷积核二维平面尺寸为基本单元读取对应第N-1通道的输入特征图数据,并沿着步长S移动方向逐行从左至右给脉动阵列的各行输入端口分别提供卷积所需输入特征图数据;/n并沿着行方向一直向右传递到最右侧。/nS3:在垂直方向,遵循NCHW格式,将每个卷积核的第0~N-1通道的权重系数依次分别传输给脉动阵列的对应各列输入端口,并沿着列方向一直向下传递到最底部;/nS4:所述的输入特征图和相应的权重系数在脉动阵列的各个PE运算单元中完成卷积运算,各行的PE运算单元按顺序得到部分和结果,即同一行的各个PE在同一时刻得到各自的部分和卷积结果,上一行的PE相比于紧邻的下一行PE提前1拍得到部分和卷积结果;/nS5:m列的输出并行进行,对于各列,首先输出步长S移动0次的卷积计算结果,然后输出步长S移动1次的卷积计算结果,以此类推,直至输出步长S移动n-1次的卷积计算结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910857692.4/,转载请声明来源钻瓜专利网。