[发明专利]基于GPU的异构大型矩阵求解方法在审
申请号: | 202110428174.8 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113076520A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 万波;刘民庆 | 申请(专利权)人: | 湖北九同方微电子有限公司 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F9/54;G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖北省武汉市湖北省武汉东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 gpu 大型 矩阵 求解 方法 | ||
本发明涉及GPU矩阵求解技术领域,尤其涉及基于GPU的异构大型矩阵求解方法,基于GPU的异构大型矩阵求解方法,包括:将矩阵进行简单的分块,每个线程块负责计算乘积矩阵的一个子方阵(块内的每个线程负责计算子方矩阵的一个元素);首先使用每个线程加载分块方阵对应元素,然后计算乘积方阵的一个元素;每一线程将乘积的结果,累计到寄存器中,执行完毕后,将结构写入GPU内存中。本发明充分利用GPU的多线程特点,从而大大提高其运算速度,并将内侧大小配置成16的倍数,重复利用GPU的内存读取特点,符合GPU内存读取高效率的原则,可以在保证高速运算的前提下,使运算结果更加精确,避免繁杂的运算过程。
技术领域
本发明涉及GPU矩阵求解技术领域,尤其涉及基于GPU的异构大型矩阵求解方法。
背景技术
随着计算机和集成电路技术的发展,图形硬件的更新速度越来越快,图形处理器GPU其多流水线结构、向量处理特性以及32位IEEE标准浮点精度的实现使得它对于计箅密集型的科学应用有非常大的吸引力,成为通用计算的一个有效并行平台,极大地提高了GPU的可编程性,使得个人计算机实现高性能并行计算变成可能,同时矩阵计算的普及非常重妥,很多工程问题最终都涉及矩阵运算,如数字图像处理、解微分方程求解、最小二乘法力学分析等。
随着个人计算机应用的快速发展,在个人计算机上实现大型矩阵的快速计算问题变得越来越突出,其矩阵乘法的快速运算中,会导致乘法精度和运算速度出现偏差。
现有的异构大型矩阵求解方法,均以高精度大型矩阵进行快速运算,但却对图形处理器GPU的计算速度造成阻碍,成为计算速度的瓶颈,并行计算是提高矩阵运算速度的最好方法。
发明内容
本发明的目的是提供基于GPU的异构大型矩阵求解方法。
为了实现上述目的,本发明采用了如下技术方案:
基于GPU的异构大型矩阵求解方法,包括;
(1)将矩阵进行简单的分块,每个线程块负责计算乘积矩阵的一个子方阵(块内的每个线程负责计算子方矩阵的一个元素);
(2)首先使用每个线程加载分块方阵对应元素,然后计算乘积方阵的一个元素;
(3)每一线程将乘积的结果,累计到寄存器中,执行完毕后,将结构写入GPU内存中。
优选的,矩阵分解为多个16×16的方阵。
优选的,每个线程块使用256个线程并行计算。
优选的,每个线程块分配16×16个线程,建立(m/16)×(n/16)个线程块。
优选的,将GPU内存大小配置呈16的倍数,并在复制矩阵到显卡内存之前,将其清零;
(1)根据n阶方阵,进行算法流程,并分配共享内存空间;
(2)将该线程需要计算的分块矩阵的对应行列载入共享内存对应的位置;
(3)线程同步,确保各个线程册要数据都已经完全装在共享内存中,并用Kahan求和公式计算结果;
(4)线程同步,确保以上各个线程计算均完成,将结果写入矩阵对应的位置。
本发明至少具备以下有益效果:
该异构大型矩阵求解方法,将矩阵分解为多个16x16的方阵,每个线程块使用256个线程并行计算,这样就可以将两个小矩阵完全加载到存取速度很快的共享内存中来,在计算过程中,小矩阵本身的乘法就不需要再存取任何外部的内存,建立(m/16)×(n/16)个线程块,充分利用GPU的多线程特点,从而大大提高其运算速度,并将内侧大小配置成16的倍数,重复利用GPU的内存读取特点,符合GPU内存读取高效率的原则,可以在保证高速运算的前提下,使运算结果更加精确,避免繁杂的运算过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北九同方微电子有限公司,未经湖北九同方微电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110428174.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种沉淀法白炭黑制浆装置
- 下一篇:一种可注射左旋聚乳酸微粒的制备方法