[发明专利]基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法有效
申请号: | 201810949097.9 | 申请日: | 2018-08-20 |
公开(公告)号: | CN109378039B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 王雪松;刘健;程玉虎 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G16B25/10 | 分类号: | G16B25/10;G16B40/00;G06F17/15;G06F17/16;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 楼高潮 |
地址: | 221116 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 离散 约束 封顶 范数 肿瘤 基因 表达 数据 方法 | ||
1.一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于,具体步骤为:
步骤A:采用主成分分析方法对原始肿瘤基因表达谱数据进行降维;
步骤B:将降维后的肿瘤基因表达谱数据表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式;
步骤C:利用K均值方法初始化每个低秩子空间,得到每个低秩子空间的样本标签向量,并将其转换成离散约束对角矩阵形式;
步骤D:利用低秩矩阵和离散约束方法表示每一个低秩子空间,并对每个低秩子空间采用Schatten p范数进行低秩逼近;
步骤E:采用封顶范数对噪声矩阵进行约束;
步骤F:利用增广拉格朗日乘子法对目标函数进行迭代优化,得到优化后的离散约束对角矩阵;
步骤G:根据优化后的每个低秩子空间的离散约束对角矩阵得到最终的聚类标签矩阵;
所述步骤A中,给定原始肿瘤基因表达谱数据Y={y1,…,yi,…,yN}T∈RM×N,i=1,2,…N,其中M为原始肿瘤基因表达谱数据的基因维数,N为原始肿瘤基因表达谱数据的样本个数,首先计算原始肿瘤基因表达谱数据的总体协方差矩阵:
式中,表示原始肿瘤基因表达谱数据的均值;主成分分析方法的目标函数为:
s.t.QTQ=I
式中,I为单位矩阵,约束条件QTQ=I,由于S为非负定对称矩阵,由非负定矩阵的谱分解定理可知,假设λ为S的秩,则:
S=λQ
设λ1,λ2,…,λm为上式中前m个最大特征值,其对应的特征向量为q1,q2,…,qm;采用主成分分析法的目标函数对原始肿瘤基因表达谱数据Y进行主成分特征提取,得到:
X=(q1,q2,…,qm)Y=QY
式中,X∈Rm×N表示经过主成分分析方法降维后的肿瘤基因表达谱数据;
所述步骤C中,给定包含多个低秩子空间的低秩矩阵A,利用K均值方法初始化每个低秩子空间,得到每个低秩子空间的样本标签向量,并将其转换成离散约束对角矩阵形式;具体步骤如下:
步骤C1:输入多个低秩子空间的低秩矩阵A,给定聚类类别数目c,在A中随机选取c个样本作为初始聚类中心;
步骤C2:根据相似度准则将A中的每个样本分配到最接近的聚类中心,形成多个类;
步骤C3:以每类的平均向量作为新的聚类的中心,更新聚类中心,重新分配样本;
步骤C4:循环执行步骤C2和步骤C3直至满足终止条件,终止条件为所有样本所属的聚类中心都不再变化时算法收敛,得到每个类别的样本标签;
步骤C5:定义每个低秩子空间为一个类别,根据步骤C4得到的每个类别的样本标签生成相应低秩子空间的样本标签向量,其中,若一个样本属于某一低秩子空间,则该样本在这一低秩子空间的样本标签向量中相应的值为1,否则,值为0;
步骤C6:将步骤C5得到的每个低秩子空间的样本标签向量转换成离散约束对角矩阵形式;设第i个低秩子空间的样本标签向量表示为Ci∈R1×N,其中,若一个样本属于Ci,则该样本在Ci中相应的值为1,否则,值为0;第i个低秩子空间的离散约束对角矩阵形式表示为Ii∈RN×N,其中,Ii中每个对角元素的值对应Ci中相应位置元素的值,即Ii中第j个对角元素的值对应Ci中第j个元素的值;其次,利用降维后的肿瘤基因表达谱数据和离散约束方法表示每一个低秩子空间,即第i个低秩子空间可以表示为AIi,其中Ii的约束为表示在c个低秩子空间中,Ii是第i个大小为N×N且对角元素为0或1的离散约束对角矩阵;表示所有的c个低秩子空间的和是一个单位矩阵;
所述步骤D中,利用低秩矩阵A和离散约束方法表示每一个低秩子空间,并对每个低秩子空间采用Schatten p范数进行低秩逼近,公式表示为定义一个矩阵L的Schattenp范数为其展开形式为
所述步骤F中,利用增广拉格朗日乘子法对目标函数进行迭代优化,得到优化后的离散约束对角矩阵;目标函数表示为
其中,λ是已知的可调节平衡参数;
由于目标函数是非凸的,采用增广拉格朗日乘子法进行求解;根据增广拉格朗日函数的定义,目标函数的拉格朗日函数可以表示为
式中,Ψ和是拉格朗日乘子项;
将目标函数的拉格朗日函数分为三个子优化问题:(1)当固定E和时,优化A;(2)当固定A和时,优化E;(3)固定A和E时,优化
(1)当固定E和时,优化A
这时,目标函数的拉格朗日函数可以表示为
其中,B=X-E+Ψ/μ;根据上式对A进行求偏导数并令式子为零得到
2AH+μ(A-B)=0,
其中,H=k(ATA)k-1;最终,可以得到优化后的A
A=μB(2H+μI)-1.
这里H是由A计算得到,可以利用交替迭代H和A得到最终优化后的A;
(2)当固定A和时,优化E
这时,目标函数的拉格朗日函数可以表示为
其中,F=X-A+Y/μ;上式可以表示为以下形式
其中,进一步地,将上式表示为
其中,O是一个对角矩阵,且Oii=oi;上式可以利用迭代重加权方法进行求解;
当固定O时,根据上式对E进行求偏导数并令式子为零,得到
2λEO+μ(E-F)=0,
最终,可以得到优化后的E
E=μF(2λO+μI)-1.
当固定E时,O的优化更新规则为
(3)固定A和E时,优化
这时,目标函数的拉格朗日函数可以表示为
对上式求偏导数并令式子等于零,则偏导数公式为
令则上述偏导数公式可以表示为
由于Gi可以通过A和Ii计算得到,因此,可以利用迭代算法来得到偏导数公式的最优解;Gi通过A和初始化的Ii计算得到,如果固定Gi,这时的Ii可以满足以下简化后的目标函数
Ii可以通过简化后的目标函数进行优化;
令Zi=ATGiA,则简化后的目标函数可以表示为
由于则上述公式可以展开为
式中,rci是Ii中的第c个对角元素,zci是Zi中的第c个对角元素;rci可以由以下条件优化得到
通过优化Ii中每个对角元素,得到优化后的离散约束对角矩阵Ii。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810949097.9/1.html,转载请声明来源钻瓜专利网。