[发明专利]稀疏矩阵乘法加速机制在审
申请号: | 202010591833.5 | 申请日: | 2020-06-24 |
公开(公告)号: | CN112446815A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | S·马伊尤兰;M·内文;J·帕拉;A·加尔各;S·马尔瓦哈;S·沙阿 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06F17/16;G06F5/06 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘文灿 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 稀疏 矩阵 乘法 加速 机制 | ||
1.一种用于促进矩阵乘法运算的加速的装置,包括:
脉动阵列,其包括矩阵乘法硬件,以对接收到的矩阵数据执行乘加运算,所述接收到的矩阵数据包括来自多个输入矩阵的数据;以及
稀疏矩阵加速硬件,其用于检测所述矩阵数据中的零值,并且对所述矩阵数据执行一个或多个优化,以减少要由所述矩阵乘法硬件执行的乘加运算。
2.根据权利要求1所述的装置,其中,所述稀疏矩阵加速硬件通过将每个矩阵值与零值进行比较来检测所述接收到的矩阵数据内的零。
3.根据权利要求1所述的装置,还包括用于压缩所述矩阵数据的压缩硬件。
4.根据权利要求3所述的装置,其中,压缩所述矩阵数据包括:通过从所述矩阵数据中去除零值来生成打包矩阵数据,以及生成指示符向量以标识所述零值在所述打包矩阵数据中的位置。
5.根据权利要求4所述的装置,其中,所述稀疏矩阵加速硬件接收压缩矩阵数据,并且基于所述指示符向量来识别所述压缩矩阵数据中的所述零值。
6.根据权利要求1所述的装置,其中,所述稀疏矩阵加速硬件优化所述矩阵数据包括:交换所述多个输入矩阵中的第一输入矩阵的多个子矩阵中的每个子矩阵中的行,以达到具有预定门限的零值的最大相邻行数。
7.根据权利要求6所述的装置,其中,所述稀疏矩阵加速硬件优化所述矩阵数据还包括:交换所述多个输入矩阵中的第二输入矩阵的多个子矩阵中的每个子矩阵中的行,以相加至所述第一矩阵和所述多个输入矩阵中的第三输入矩阵的乘法运算的结果。
8.根据权利要求7所述的装置,其中,所述稀疏矩阵加速硬件优化所述矩阵数据还包括:对输出矩阵执行反向交换。
9.根据权利要求7所述的装置,其中,所述稀疏矩阵加速硬件优化所述矩阵数据还包括:在所述第一矩阵中执行行调整。
10.根据权利要求9所述的装置,其中,执行所述行调整包括:对具有多于预定数量的零值的行的所有非零值进行移位。
11.根据权利要求9所述的装置,其中,执行所述行调整包括:合并具有多于预定数量的零值的相邻行。
12.根据权利要求9所述的装置,其中,所述矩阵乘法硬件包括脉动乘法器,包括:
第一组先进先出(FIFO)缓冲器,其用于将数据存储在所述第一输入矩阵中;
第二组FIFO缓冲器,其用于将数据存储在所述第二输入矩阵中;
多个处理元件(PE),每个所述处理元件被耦合以从所述第一组FIFO缓冲器中的至少一个和所述第二组FIFO缓冲器中的至少一个接收数据;以及
多个存储元件,其用于本地地存储中间矩阵乘法值。
13.一种用于促进矩阵乘法运算的加速的方法,包括:
检测包括来自多个输入矩阵的数据的矩阵数据中的零值;
对所述矩阵数据执行一个或多个优化,以消除要对所述矩阵数据执行的多个乘加运算;以及
在矩阵乘法硬件处对优化后的矩阵数据执行乘加运算。
14.根据权利要求13所述的方法,其中,对所述矩阵数据执行所述一个或多个优化包括:交换所述多个输入矩阵中的第一输入矩阵的多个子矩阵中的每个子矩阵中的行,以达到具有预定门限的零值的最大相邻行数。
15.根据权利要求14所述的方法,其中,对所述矩阵数据执行所述一个或多个优化还包括:在所述第一矩阵中执行行调整。
16.根据权利要求15所述的方法,其中,对所述矩阵数据执行所述一个或多个优化还包括:对从所述乘加运算得到的输出矩阵执行反向交换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010591833.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:主动DI/DT电压下降抑制
- 下一篇:半导体封装件