[发明专利]处理大规模矩阵数据的主成分分析方法在审
申请号: | 201611153472.6 | 申请日: | 2016-12-14 |
公开(公告)号: | CN106855918A | 公开(公告)日: | 2017-06-16 |
发明(设计)人: | 喻文健;谷昱 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 大规模 矩阵 数据 成分 分析 方法 | ||
1.一种处理大规模矩阵数据的主成分分析方法,其特征在于,包括以下步骤:
S1:在内存中生成一个n行、l列的随机数矩阵Ω;
S2:选取原始数据矩阵A,并根据所述原始数据矩阵A计算矩阵G和H,并将矩阵G和H存储于内存中,其中,G=AΩ,H=ATG,所述原始数据矩阵A为m×n矩阵;
S3:初始化变量j=1,并初始化m×l矩阵Q和l×n矩阵B均为零矩阵;
S4:设定G[j,j+b]和Ω[j,j+b]分别为矩阵G和矩阵Ω的第j到j+b列,且当j>1时,计算G[j,j+b]-QBΩ[j,j+b],并将计算结果覆盖G[j,j+b],其中,b为不超过l-j的非负整数;
S5:对矩阵G[j,j+b]做简化QR分解,得到m×(b+1)列正交矩阵Q[j,j+b]和上三角方阵R,其中,Q[j,j+b]存储在矩阵Q的第j到j+b列;
S6:如果j>1,则计算矩阵Q[j,j+b]-Q(QTQ[j,j+b])的简化QR分解,将得到的m×(b+1)列正交矩阵覆盖Q[j,j+b],以得到上三角阵为并计算矩阵乘法并将计算结果覆盖R;
S7:设H[j,j+b]表示矩阵H的第j到j+b列,如果j=1,计算否则计算得到结果为(b+1)×n的矩阵Btemp,并将Btemp存储在矩阵B的第j到j+b行;
S8:将变量j+b+1的值赋值给变量j;
S9:如果j≤l,则返回执行所述S4,否则执行所述S10;
S10:对矩阵B做奇异值分解:B=UΣVT,其中,矩阵V的前k列为所述前k个主成分向量,Σ的前k个对角元为所述对应的奇异值。
2.根据权利要求1所述的处理大规模矩阵数据的主成分分析方法,其特征在于,在所述S1中,所述参数l为至少比k大5的整数。
3.根据权利要求1所述的处理大规模矩阵数据的主成分分析方法,其特征在于,所述S1,进一步包括:
S11:根据随机数生成器软件生成一个n×l随机数矩阵Ω;
S12:初始化变量i=0,变量P为小于10的非负整数;
S13:如果i=P,则结束执行,否则转到所述S14继续执行;
S14:计算矩阵乘法AΩ,并对计算结果进行简化QR分解,将得到的m×l列正交阵赋值给矩阵G;
S15:计算矩阵乘法ATG,并对计算结果进行简化QR分解,将得到的n×l列正交阵赋值给矩阵Ω;
S16:将i的值加1,并转到所述S13继续执行。
4.根据权利要求1所述的处理大规模矩阵数据的主成分分析方法,其特征在于,在所述S2中,根据所述原始数据矩阵A的不同产生方式或来源,通过遍历一遍所述原始数据矩阵A中的元素来计算出矩阵G=AΩ和H=ATG。
5.根据权利要求1所述的处理大规模矩阵数据的主成分分析方法,其特征在于,所述S2,进一步包括:
S21:在内存中开辟二维数组空间存储n×l的矩阵H,并将所述矩阵H的数据初始化为0;
S22:获取原始数据矩阵A的预设行的数据并存于内存中,并设定所述预设行形成s×n的矩阵Ai,计算矩阵乘运算Gi=AiΩ,其中,所述Gi为矩阵G对应的行;
S23:计算并将计算结果赋值给矩阵H;
S24:判断是否获取原始数据矩阵A的所有行,如果是,则停止执行,否则返回执行所述S22。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611153472.6/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置