[发明专利]一种大矩阵快速转置多核并行处理方法在审
申请号: | 201811418100.0 | 申请日: | 2018-11-26 |
公开(公告)号: | CN111221574A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 何炜;王禹超;忤锐;叶伟平;王嘉栋 | 申请(专利权)人: | 北京华航无线电测量研究所 |
主分类号: | G06F9/30 | 分类号: | G06F9/30;G06F9/38;G06T1/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100013 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 矩阵 快速 多核 并行 处理 方法 | ||
本发明一种大矩阵快速转置多核并行处理方法,包括以下步骤:步骤一:DSP每个内核利用EDMA将外部大存储器中需处理子矩阵Ai(N,M),i∈[0,x‑1]搬移至SRAM缓存;步骤二、x个内核并行处理,CPU利用优化的内联函数,对缓存数据进行转置,得到AΤi(N,M),i∈[0,x‑1],再通过EDMA将结果数据搬移至外部大存储器。本发明提高了数据处理速度。
技术领域
本发明属于图像信号处理领域。
背景技术
图像中含有丰富的信息,雷达成像已经成为获取地面细节信息的重要来源。雷达成像需处理由距离向、方位向构成的二维矩阵数据,尤其是高分辨率雷达的矩阵行列数较大。为了获取更多的信息,信号处理算法需要处理的数据量越来越大;同时为了保证处理实时性,信号处理平台的计算能力也在不断扩大。
目前,在弹载高实时性要求的场景下,多核处理器已经成为提高信号处理算力的主要解决方案,N个内核的处理耗时可达1个内核的1/N。但是外部资源的限制,多核在实际使用时需要串行排队等待资源,大大降低了多核的工作效率。因此,最大限度减少外部资源冲突限制,达到多核并行比最大化,已经成为一个热门的攻关方向。
例如:TMS320C667x是TI公司开发的多核高性能DSP(Digital Signal Processing数字信号处理技术)芯片,是图像信号处理中比较常用的芯片,其工作主频最大能达1.2GHz,拥有丰富的SRIO、PCIE等高速外部接口,以及增强型直接内存读取EDMA模块,为大运算量、高实时性要求的雷达成像提供了可能。雷达成像所需的二维矩阵数据由于较大,只能存储于外部存取速度较慢的大存储器中(如DDR等)。TI提供两种矩阵转置的方案,第一种为CPU使用优化的内联函数直接转置,另一种为EDMA(Enhanced Direct Memory Access,增强型直接内存访问)转置。如果使用CPU进行矩阵转置,由于外部存储器中存取数据速度慢CPU高速处理受限,导致转置耗时长;如果使用EDMA进行矩阵转置,由于外部大存储器内单个数据跳读或者跳写操作效率很低,会严重降低EDMA执行速度,导致转置时间长。
发明内容
针对现有技术数据处理实时性不能满足要求的问题,本发明提供一种大矩阵快速转置多核并行处理方法,提高了数据处理速度。
本发明一种大矩阵快速转置多核并行处理方法,包括以下步骤:
步骤一:DSP每个内核利用EDMA将外部大存储器中需处理子矩阵Ai(N,M),i∈[0,x-1]搬移至SRAM缓存;
步骤二、x个内核并行处理,CPU利用优化的内联函数,对缓存数据进行转置,得到AΤi(N,M),i∈[0,x-1],再通过EDMA将结果数据搬移至外部大存储器;
所述Ai(N,M),i∈[0,x-1]为每个内核需处理一个子矩阵,由雷达成像所需x*N个距离向点数、M个方位向点数构成的大复数矩阵A(x*N,M)为
A(x*N,M)=[A0(N,M);A1(N,M);...;Ax-1(N,M)]
共x*N行,M列,每个复数由1个浮点数实部,1个浮点数虚部构成,将A(x*N,M)从行向均分为x块Ai(N,M),i∈[0,x-1];
所述转置结果AΤ(x*N,M)为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华航无线电测量研究所,未经北京华航无线电测量研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811418100.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种磷掺杂碳负载钼钨碳化物催化剂及制备和应用
- 下一篇:一种伸缩单臂及起重机