[发明专利]执行高效3维卷积的神经网络单元有效
申请号: | 201711025872.3 | 申请日: | 2017-10-27 |
公开(公告)号: | CN108133264B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | G·葛兰·亨利;金·C·霍克 | 申请(专利权)人: | 上海兆芯集成电路有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 梁挥;祁建国 |
地址: | 201203 上海市张*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 神经网络单元将H×W×C输入与F个R×S×C滤波器进行卷积以生成F个Q×P输出。N个处理单元(PU)各自具有接收存储器字的寄存器和多路复用寄存器,所述多路复用寄存器选择性地接收存储器字或从相邻PU多路复用寄存器旋转的字。N个PU被逻辑地分为每一个为B个PU的G个块。PU按列‑通道‑行顺序进行卷积。对于每个滤波器列:N个寄存器读取存储器行,每个PU将寄存器和多路复用寄存器相乘以生成用于累加的乘积,及多路复用寄存器旋转一;旋转多路复用寄存器以使输入块与相邻PU块对准。这是针对每个通道执行的。对于每个滤波器行,N个多路复用寄存器读取用于乘法‑累加的存储器行,生成F个列‑通道‑行‑和,并将其写入存储器,然后针对每个输出行执行所有步骤。 | ||
搜索关键词: | 执行 高效 卷积 神经网络 单元 | ||
【主权项】:
一种神经网络单元(NNU),被配置为将H行乘以W列乘以C个通道的输入与每一个为R行乘以S列乘以C个通道的F个滤波器进行卷积,以生成每一个为Q行乘以P列的F个输出,所述神经网络单元包括:至少一个存储器,所述至少一个存储器输出N个字的行,其中N至少为512;N个处理单元(PU)的阵列,其中所述阵列的每个PU具有:累加器;寄存器,所述寄存器被配置为接收来自所述至少一个存储器的行的所述N个字中的相应字;多路复用寄存器,所述多路复用寄存器被配置为选择性地接收来自所述至少一个存储器的行的所述N个字中的相应字或从逻辑上相邻的PU的多路复用寄存器旋转的字;及算术逻辑单元,所述算术逻辑单元耦合到所述累加器、寄存器和多路复用寄存器;其中所述N个PU被逻辑地分为G个块,每一块为B个相应PU,其中B是至少与W一样大的N的最小因数;对于Q个输出行的每个输出行:对于R个滤波器行的每个滤波器行:所述NNU从所述至少一个存储器将N个字的行读入所述N个多路复用寄存器,所述N个字的行被逻辑地分为与所述PU的G个块对应的G个输入块,其中所述G个输入块中的至少C个包括输入的C个通道中的相应通道的行;及对于C个通道中的至少每个通道:对于S个滤波器列的每个滤波器列:所述NNU从所述至少一个存储器将N个字的行读入所述N个寄存器,所述N个字的行被逻辑地分为对应于所述G个输入块的G个滤波器块,其中G个滤波器块中的F个滤波器块中的每一个对应于F个滤波器中的相应滤波器并且包括在滤波器列和滤波器行以及相应输入块的相应通道的相应滤波器的权重的至少Q个副本;所述阵列的每个PU将所述寄存器和所述多路复用寄存器相乘以生成乘积,并且将所述乘积与所述累加器累加;及所述NNU将所述多路复用寄存器旋转一;及所述NNU旋转所述多路复用寄存器,以将所述G个输入块与B个PU的相邻G块对准;及所述NNU将所述N个累加器写入所述至少一个存储器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海兆芯集成电路有限公司,未经上海兆芯集成电路有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711025872.3/,转载请声明来源钻瓜专利网。
- 上一篇:神经网络单元
- 下一篇:利用相同处理单元实施不同类型的卷积运算的方法和装置