[发明专利]一种基于乔列斯基分解的矩阵求逆装置在审
申请号: | 201910804096.X | 申请日: | 2019-08-28 |
公开(公告)号: | CN112445752A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 张应松;矫渊培 | 申请(专利权)人: | 上海华为技术有限公司 |
主分类号: | G06F15/78 | 分类号: | G06F15/78;G06F5/01;G06F17/16 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 骆苏华 |
地址: | 201206 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 乔列斯基 分解 矩阵 装置 | ||
本发明公开了一种基于乔列斯基分解的矩阵求逆装置,包括数据写入控制单元,第一数据移位单元、控制单元、运算单元、第二数据移位单元、存储单元和输出单元,该运算单元包括8个单精度复数乘加单元CMAC,该CMAC具备四级流水运算结构,运算单元与控制单元相连,第一数据移位单元、控制单元、第二数据移位单元和输出单元分别与存储单元相连,控制单元与第二数据移位单元相互连接,数据写入控制单元与第一数据移位单元相连。本申请技术方案通过使用8个CMAC的运算单元解决当前矢量处理器内部计算资源较少和计算资源的利用率较低的问题,降低基于乔列斯基的分解求逆处理时延,提升网络性能。
技术领域
本发明涉及数字信号处理领域,具体涉及一种基于乔列斯基分解的矩阵求逆装置。
背景技术
基于乔列斯基分解是一种常用的正定矩阵求逆的方法,该矩阵求逆的原理是:对于一个n阶对称正定矩阵A,存在一个下三角矩阵L,使得A=L*LT,那么该正定矩阵A的逆A-1=(L*LT)-1=(LT)-1*L-1=(L-1)T*L-1。业界的通用做法是采用矢量处理器来实现基于乔列斯基的分解求逆。
基于乔列斯基分解的矩阵求逆运算过程中存在大量的迭代和交织运算,其内部计算量非常大。矢量处理器主要依靠其内部的矢量处理单元来进行基于乔列斯基的分解求逆。然而,当前矢量处理器中只包含16个半精度的复数乘加单元(complex signalprocessor,CMAC),只等效于4个单精度的CMAC,即理想情况下每一次只能做4次单精度复数运算,使得即使计算资源的利用率能达到百分之百,处理能力也依然较弱。与此同时,矢量处理器在做基于乔列斯基的分解求逆时,先做乔列斯基分解,待分解结果全部求出后再进行求逆操作。由于运算过程中的数据依赖关系,分解的过程是随着迭代的进行所需要的CMAC越来越少,而求逆则相反,随着迭代额进行所需要的CMAC越来越多。无论是分解或者是求逆,随着迭代的进行,都存在CMAC利用率变好或者变差的情景,即CMAC平均利用率较低。
综上所述,当前矢量处理器内部计算资源较少和计算资源的利用率较低,使得基于乔列斯基的分解求逆处理时延较长,导致其容易成为链路的瓶颈,影响网络性能。
发明内容
本发明实施例提供一种基于乔列斯基分解的矩阵求逆装置,能够降低基于乔列斯基的分解求逆处理时延,提升网络性能。
本申请提供一种基于乔列斯基分解的矩阵求逆装置,包括数据写入控制单元,第一数据移位单元、控制单元、运算单元、第二数据移位单元、存储单元和输出单元,其中,运算单元包括8个单精度复数乘加单元CMAC,每个CMAC具备四级流水运算结构,运算单元与控制单元相连,第一数据移位单元、控制单元、第二数据移位单元和输出单元分别与存储单元相连,控制单元与第二数据移位单元相互连接,数据写入控制单元与第一数据移位单元相连。
该基于乔列斯基分解的矩阵求逆装置中,数据写入控制单元,用于完成矩阵的写入控制,该矩阵为N阶正定矩阵,N为大于1且小于或等于32的整数。
该基于乔列斯基分解的矩阵求逆装置中,第一数据移位单元,用于将矩阵的对角线数据移位至每一列的第一位,以得到第一移位数据。
该基于乔列斯基分解的矩阵求逆装置中,控制单元,用于存储单元、第二数据移位单元和运算单元之间的通信与控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海华为技术有限公司,未经上海华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910804096.X/2.html,转载请声明来源钻瓜专利网。