[发明专利]数据处理装置、芯片和板卡在审
申请号: | 202111399805.4 | 申请日: | 2021-11-19 |
公开(公告)号: | CN114154112A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 上海寒武纪信息科技有限公司 |
主分类号: | G06F17/15 | 分类号: | G06F17/15;G06N3/04;G06N3/08 |
代理公司: | 北京维昊知识产权代理事务所(普通合伙) 11804 | 代理人: | 陈姗姗 |
地址: | 201306 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 装置 芯片 板卡 | ||
1.一种数据处理装置,包括控制电路、第一存储区域、第二存储区域和运算单元,其中:
所述第一存储区域用于存储处理前的输入特征图和卷积核;
所述控制电路用于:
根据卷积运算中宽度W维度的卷积步长Sw,将所述第一存储区域中的输入特征图和卷积核的W维度分别对齐到所述卷积步长Sw,并存储在所述第二存储区域中;
将所述输入特征图的数据形状由原形状hi*wi*ci设置为优化形状hi*ceil(wi/Sw)*(Sw*ci),表示从所述输入特征图的次低存储维度W拆分Sw倍的数据补至最低存储维度C,hi是输入特征图的最高存储维度H的原始大小,wi是次低存储维度W的原始大小,ci是最低存储维度C的原始大小;
将所述卷积核的数据形状由原形状co*kh*kw*ci设置为优化形状co*kh*ceil(kw/Sw)*(Sw*ci),其中co是卷积核的最高存储维度的原始大小,kh是次高存储维度H的原始大小,kw是次低存储维度W的原始大小,ci是最低存储维度C的原始大小;以及
将所述卷积运算的W维度的卷积步长设置为1;
所述第二存储区域用于按照对齐后的存储顺序存储所述控制电路处理后的输入特征图和卷积核;以及
所述运算单元用于将所述第二存储区域内的输入特征图和卷积核执行卷积运算。
2.根据权利要求1所述的装置,其中所述控制电路进一步用于:
通过补零填充,将所述输入特征图和卷积核的W维度的大小分别补齐到Sw的倍数。
3.根据权利要求2所述的装置,其中所述控制电路进一步用于:
在所述输入特征图和卷积核的W维度的末端补充相应数量的零。
4.根据权利要求1-3任一所述的装置,其中所述第一存储区域位于片外存储电路上,所述第二存储区域位于片内存储电路上。
5.根据权利要求1-3任一所述的装置,其中所述第一存储区域位于第一片内存储电路上,所述第二存储区域位于执行所述卷积运算的运算电路本地的第二片内存储电路上。
6.根据权利要求1-5任一所述的装置,其中所述控制电路进一步用于:
在根据所述卷积运算的边界扩充参数进行边界扩充的同时执行所述对齐。
7.根据权利要求1-6任一所述的装置,其中所述运算单元包括主处理电路和多个从处理电路;其中,
所述主处理电路,用于基于所述输入特征图的优化形状,将所述输入特征图的最低存储维度Sw*ci维度对齐到输入通道拆分粒度Pci,并且将每一拆分粒度的数据联合Ws倍的宽度维度的数据构成输入特征数据行广播给多个所述从处理电路以执行所述卷积运算,其中Pci*Ws=M,M是硬件单次处理数据量;并且
多个所述从处理电路,用于分别对广播的所述输入特征图和分配给所述从处理电路的对应卷积核按照W维度的卷积步长为1执行卷积运算。
8.根据权利要求7所述的装置,其中所述卷积核在被分发给各个从处理电路时,所述卷积核的最低存储维度Sw*ci被对齐到所述Pci,并根据所述宽度维度的倍数Ws,将在Ci维度上按照Pci拆分的或对齐到Pci的一列输入通道数据块复制扩展成Ws列,构成一个扩展权值数据行,以与所述输入特征数据行进行卷积运算。
9.根据权利要求8所述的装置,其中每个所述从处理电路进一步用于按如下维度顺序、多层循环执行所述卷积运算:
每个所述从处理电路分配的卷积核的co维度作为最内层循环;
卷积核的kw维度作为中层循环;以及
卷积核的kh维度和ci维度按Pci拆分的块数Bci作为外层循环。
10.一种芯片,包括根据权利要求1-9任一所述的数据处理装置。
11.一种板卡,包括根据权利要求10所述的芯片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海寒武纪信息科技有限公司,未经上海寒武纪信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111399805.4/1.html,转载请声明来源钻瓜专利网。