[发明专利]一种矩阵乘法的计算方法及装置在审
申请号: | 201810386460.0 | 申请日: | 2018-04-26 |
公开(公告)号: | CN110415157A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 方民权;吴小蓉;程剑 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06F17/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 矩阵乘法 矩阵乘法器 矩阵 图形处理器 存储访问 计算方法及装置 多处理器 计算单元 计算效率 连接网络 芯片空间 被乘数 存储库 列元素 乘数 加载 申请 占用 访问 | ||
本申请提出一种矩阵乘法器。由于现有的矩阵乘法器所包含的全连接网络占用芯片空间较大,且进行矩阵乘法计算时需要进行大量的存储访问,导致流多处理器进行矩阵乘法计算效率较低。基于提高图形处理器进行矩阵乘法计算的效率的目的,本申请所提出的矩阵乘法器在进行矩阵乘法时,利用不同组的存储库可以同时访问的特性,每次将作为被乘数的矩阵的一行元素以及作为乘数的矩阵的一列元素加载到相应的计算单元中,同时进行计算。通过使用这种矩阵乘法器,可以减少完成矩阵乘法计算所需要的步骤,降低了所需进行的存储访问的次数,从而提高了图形处理器进行矩阵乘法计算的效率。
技术领域
本发明涉及图形技术领域,特别涉及一种矩阵乘法计算的技术领域。
背景技术
图形处理器(英文全称:Graphics Processing Unit,缩写:GPU)是一种用于在主机等设备上进行图像运算工作的微处理器。在GPU中,流多处理器(英文全称:StreamingMultiprocessor,缩写:SM)是基本计算单元,其采用单指令多线程的执行方式,能够保证多线程的同时执行。大致来说,SM包括指令缓存(英文:Instruction Buffer)、线程束调度器(英文:Warp Scheduler)、指令分发单元(英文:Dispatch Unit)、流处理器(英文全称:Streaming Processor,缩写:SP)、双精度浮点运算单元(英文全称:Double precisionfloating-point unit,缩写:DP)等单元。
在GPU进行图像处理时,矩阵乘法是其进行数据计算中最重要的操作之一,具有很多的应用。例如,在深度学习的结构中,卷积神经网络在图像和语音识别方面能够给出更好的结果,对于大型图像处理有着出色的表现,而在某些卷积神经网络的具体实现过程中,可以将卷积计算转化为矩阵乘法计算,将卷积核矩阵和输入图像矩阵变换成两个大的矩阵A和B,然后A和B相乘得到结果矩阵D。其中,结果矩阵D的每一行表示一个输出图像,其输出图像的个数等于结果矩阵D的行数。
矩阵,是数学中一个重要的基本概念,一个M*N的矩阵是一个由M行N列元素排列成的矩形阵列。对于矩阵乘法,它只有在作为被乘数的第一个矩阵的列数和作为乘数的第二个矩阵的行数相同时才可以进行。矩阵乘法的计算规则是,第一个矩阵第一行的每个元素,分别乘以第二个矩阵第一列对应位置的元素,然后将乘积相加,作为结果矩阵第一行第一列的元素。以此类推,结果矩阵第J行第K列的元素,等于第一个矩阵的第J行与第二个矩阵第K列,对应位置每个元素的乘积的和。而矩阵加法的计算规则相对简单,即将两个待相加的矩阵相同位置上的元素进行相加,作为结果矩阵该位置上的元素,从而得到结果矩阵。
相应的,对于GPU中的SM来说,矩阵乘法器是重要的组成部分,它是GPU采用各种算法执行矩阵乘法操作的依托,目前,GPU中的SM执行矩阵乘法操作存在着需要占用大量的芯片空间以及需要进行大量的存储访问的问题,从而导致SM进行矩阵乘法计算效率较低。
发明内容
本申请的实施例提供一种矩阵乘法器,可以提高矩阵乘法计算的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810386460.0/2.html,转载请声明来源钻瓜专利网。