[发明专利]处理大规模矩阵数据的主成分分析方法在审
申请号: | 201611153472.6 | 申请日: | 2016-12-14 |
公开(公告)号: | CN106855918A | 公开(公告)日: | 2017-06-16 |
发明(设计)人: | 喻文健;谷昱 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种处理大规模矩阵数据的主成分分析方法,包括生成随机数矩阵Ω;根据原始数据矩阵A计算矩阵G和H;初始化变量j=1、m×l矩阵Q和l×n矩阵B均为零矩阵;设定G[j,j+b]和Ω[j,j+b]分别为G和Ω的第j到j+b列,当j>1时,计算G[j,j+b]‑QBΩ[j,j+b]将结果覆盖G[j,j+b];对G[j,j+b]做简化QR分解,得到正交矩阵Q[j,j+b]和上三角方阵R;若j>1,计算Q[j,j+b]‑Q(QTQ[j,j+b])的简化QR分解,将得到的正交矩阵覆盖Q[j,j+b],得到计算将计算结果覆盖R;设H[j,j+b]为H的第j到j+b列,若j=1,计算否则计算得到矩阵Btemp;将变量j+b+1的值赋值给变量j;若j≤l,返回步骤四,否则执行下一步;对B做奇异值分解,得到前k个主成分向量和对应的奇异值。本发明适合于多种大数据分析场景,具有较高的计算效率和实用性。 | ||
搜索关键词: | 处理 大规模 矩阵 数据 成分 分析 方法 | ||
【主权项】:
一种处理大规模矩阵数据的主成分分析方法,其特征在于,包括以下步骤:S1:在内存中生成一个n行、l列的随机数矩阵Ω;S2:选取原始数据矩阵A,并根据所述原始数据矩阵A计算矩阵G和H,并将矩阵G和H存储于内存中,其中,G=AΩ,H=ATG,所述原始数据矩阵A为m×n矩阵;S3:初始化变量j=1,并初始化m×l矩阵Q和l×n矩阵B均为零矩阵;S4:设定G[j,j+b]和Ω[j,j+b]分别为矩阵G和矩阵Ω的第j到j+b列,且当j>1时,计算G[j,j+b]‑QBΩ[j,j+b],并将计算结果覆盖G[j,j+b],其中,b为不超过l‑j的非负整数;S5:对矩阵G[j,j+b]做简化QR分解,得到m×(b+1)列正交矩阵Q[j,j+b]和上三角方阵R,其中,Q[j,j+b]存储在矩阵Q的第j到j+b列;S6:如果j>1,则计算矩阵Q[j,j+b]‑Q(QTQ[j,j+b])的简化QR分解,将得到的m×(b+1)列正交矩阵覆盖Q[j,j+b],以得到上三角阵为并计算矩阵乘法并将计算结果覆盖R;S7:设H[j,j+b]表示矩阵H的第j到j+b列,如果j=1,计算否则计算得到结果为(b+1)×n的矩阵Btemp,并将Btemp存储在矩阵B的第j到j+b行;S8:将变量j+b+1的值赋值给变量j;S9:如果j≤l,则返回执行所述S4,否则执行所述S10;S10:对矩阵B做奇异值分解:B=UΣVT,其中,矩阵V的前k列为所述前k个主成分向量,Σ的前k个对角元为所述对应的奇异值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611153472.6/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置