[发明专利]一种大矩阵快速转置多核并行处理方法在审

申请号：	201811418100.0	申请日：	2018-11-26
公开（公告）号：	CN111221574A	公开（公告）日：	2020-06-02
发明（设计）人：	何炜;王禹超;忤锐;叶伟平;王嘉栋	申请（专利权）人：	北京华航无线电测量研究所
主分类号：	G06F9/30	分类号：	G06F9/30;G06F9/38;G06T1/20
代理公司：	暂无信息	代理人：	暂无信息
地址：	100013 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种矩阵快速多核并行处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明一种大矩阵快速转置多核并行处理方法，包括以下步骤：步骤一：DSP每个内核利用EDMA将外部大存储器中需处理子矩阵A_i(N,M),i∈[0,x‑1]搬移至SRAM缓存；步骤二、x个内核并行处理，CPU利用优化的内联函数，对缓存数据进行转置，得到A^Τ_i(N,M),i∈[0,x‑1]，再通过EDMA将结果数据搬移至外部大存储器。本发明提高了数据处理速度。

技术领域

本发明属于图像信号处理领域。

背景技术

图像中含有丰富的信息，雷达成像已经成为获取地面细节信息的重要来源。雷达成像需处理由距离向、方位向构成的二维矩阵数据，尤其是高分辨率雷达的矩阵行列数较大。为了获取更多的信息，信号处理算法需要处理的数据量越来越大；同时为了保证处理实时性，信号处理平台的计算能力也在不断扩大。

目前，在弹载高实时性要求的场景下，多核处理器已经成为提高信号处理算力的主要解决方案，N个内核的处理耗时可达1个内核的1/N。但是外部资源的限制，多核在实际使用时需要串行排队等待资源，大大降低了多核的工作效率。因此，最大限度减少外部资源冲突限制，达到多核并行比最大化，已经成为一个热门的攻关方向。

例如：TMS320C667x是TI公司开发的多核高性能DSP(Digital Signal Processing数字信号处理技术)芯片，是图像信号处理中比较常用的芯片，其工作主频最大能达1.2GHz，拥有丰富的SRIO、PCIE等高速外部接口，以及增强型直接内存读取EDMA模块，为大运算量、高实时性要求的雷达成像提供了可能。雷达成像所需的二维矩阵数据由于较大，只能存储于外部存取速度较慢的大存储器中(如DDR等)。TI提供两种矩阵转置的方案，第一种为CPU使用优化的内联函数直接转置，另一种为EDMA(Enhanced Direct Memory Access，增强型直接内存访问)转置。如果使用CPU进行矩阵转置，由于外部存储器中存取数据速度慢CPU高速处理受限，导致转置耗时长；如果使用EDMA进行矩阵转置，由于外部大存储器内单个数据跳读或者跳写操作效率很低，会严重降低EDMA执行速度，导致转置时间长。

发明内容

针对现有技术数据处理实时性不能满足要求的问题，本发明提供一种大矩阵快速转置多核并行处理方法，提高了数据处理速度。

本发明一种大矩阵快速转置多核并行处理方法，包括以下步骤：

步骤一：DSP每个内核利用EDMA将外部大存储器中需处理子矩阵A_i(N,M),i∈[0,x-1]搬移至SRAM缓存；

步骤二、x个内核并行处理，CPU利用优化的内联函数，对缓存数据进行转置，得到A^Τ_i(N,M),i∈[0,x-1]，再通过EDMA将结果数据搬移至外部大存储器；

所述A_i(N,M),i∈[0,x-1]为每个内核需处理一个子矩阵，由雷达成像所需x*N个距离向点数、M个方位向点数构成的大复数矩阵A_(x*N,M)为

A_(x*N,M)＝[A_0(N,M)；A_1(N,M)；...；A_x-1(N,M)]

共x*N行，M列，每个复数由1个浮点数实部，1个浮点数虚部构成，将A_(x*N,M)从行向均分为x块A_i(N,M),i∈[0,x-1]；

所述转置结果A^Τ_(x*N,M)为

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京华航无线电测量研究所，未经北京华航无线电测量研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】