[发明专利]基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法有效

申请号：	201810949097.9	申请日：	2018-08-20
公开（公告）号：	CN109378039B	公开（公告）日：	2022-02-25
发明（设计）人：	王雪松;刘健;程玉虎	申请（专利权）人：	中国矿业大学
主分类号：	G16B25/10	分类号：	G16B25/10;G16B40/00;G06F17/15;G06F17/16;G06K9/62
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	楼高潮
地址：	221116 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于离散约束封顶范数肿瘤基因表达数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于，具体步骤为：

步骤A：采用主成分分析方法对原始肿瘤基因表达谱数据进行降维；

步骤B：将降维后的肿瘤基因表达谱数据表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式；

步骤C：利用K均值方法初始化每个低秩子空间，得到每个低秩子空间的样本标签向量，并将其转换成离散约束对角矩阵形式；

步骤D：利用低秩矩阵和离散约束方法表示每一个低秩子空间，并对每个低秩子空间采用Schatten p范数进行低秩逼近；

步骤E：采用封顶范数对噪声矩阵进行约束；

步骤F：利用增广拉格朗日乘子法对目标函数进行迭代优化，得到优化后的离散约束对角矩阵；

步骤G：根据优化后的每个低秩子空间的离散约束对角矩阵得到最终的聚类标签矩阵；

所述步骤A中，给定原始肿瘤基因表达谱数据Y＝{y₁,…,y_i,…,y_N}^T∈R^M×N，i＝1,2,…N，其中M为原始肿瘤基因表达谱数据的基因维数，N为原始肿瘤基因表达谱数据的样本个数，首先计算原始肿瘤基因表达谱数据的总体协方差矩阵：

式中，表示原始肿瘤基因表达谱数据的均值；主成分分析方法的目标函数为：

s.t.Q^TQ＝I

式中，I为单位矩阵，约束条件Q^TQ＝I，由于S为非负定对称矩阵，由非负定矩阵的谱分解定理可知，假设λ为S的秩，则：

S＝λQ

设λ₁,λ₂,…,λ_m为上式中前m个最大特征值，其对应的特征向量为q₁,q₂,…,q_m；采用主成分分析法的目标函数对原始肿瘤基因表达谱数据Y进行主成分特征提取，得到：

X＝(q₁,q₂,…,q_m)Y＝QY

式中，X∈R^m×N表示经过主成分分析方法降维后的肿瘤基因表达谱数据；

所述步骤C中，给定包含多个低秩子空间的低秩矩阵A，利用K均值方法初始化每个低秩子空间，得到每个低秩子空间的样本标签向量，并将其转换成离散约束对角矩阵形式；具体步骤如下：

步骤C1：输入多个低秩子空间的低秩矩阵A，给定聚类类别数目c，在A中随机选取c个样本作为初始聚类中心；

步骤C2：根据相似度准则将A中的每个样本分配到最接近的聚类中心，形成多个类；

步骤C3：以每类的平均向量作为新的聚类的中心，更新聚类中心，重新分配样本；

步骤C4：循环执行步骤C2和步骤C3直至满足终止条件，终止条件为所有样本所属的聚类中心都不再变化时算法收敛，得到每个类别的样本标签；

步骤C5：定义每个低秩子空间为一个类别，根据步骤C4得到的每个类别的样本标签生成相应低秩子空间的样本标签向量，其中，若一个样本属于某一低秩子空间，则该样本在这一低秩子空间的样本标签向量中相应的值为1，否则，值为0；

步骤C6：将步骤C5得到的每个低秩子空间的样本标签向量转换成离散约束对角矩阵形式；设第i个低秩子空间的样本标签向量表示为C_i∈R^1×N，其中，若一个样本属于C_i，则该样本在C_i中相应的值为1，否则，值为0；第i个低秩子空间的离散约束对角矩阵形式表示为I_i∈R^N×N，其中，I_i中每个对角元素的值对应C_i中相应位置元素的值，即I_i中第j个对角元素的值对应C_i中第j个元素的值；其次，利用降维后的肿瘤基因表达谱数据和离散约束方法表示每一个低秩子空间，即第i个低秩子空间可以表示为AI_i，其中I_i的约束为表示在c个低秩子空间中，I_i是第i个大小为N×N且对角元素为0或1的离散约束对角矩阵；表示所有的c个低秩子空间的和是一个单位矩阵；

所述步骤D中，利用低秩矩阵A和离散约束方法表示每一个低秩子空间，并对每个低秩子空间采用Schatten p范数进行低秩逼近，公式表示为定义一个矩阵L的Schattenp范数为其展开形式为

所述步骤F中，利用增广拉格朗日乘子法对目标函数进行迭代优化，得到优化后的离散约束对角矩阵；目标函数表示为

其中，λ是已知的可调节平衡参数；

由于目标函数是非凸的，采用增广拉格朗日乘子法进行求解；根据增广拉格朗日函数的定义，目标函数的拉格朗日函数可以表示为

式中，Ψ和是拉格朗日乘子项；

将目标函数的拉格朗日函数分为三个子优化问题：(1)当固定E和时，优化A；(2)当固定A和时，优化E；(3)固定A和E时，优化

(1)当固定E和时，优化A

这时，目标函数的拉格朗日函数可以表示为

其中，B＝X-E+Ψ/μ；根据上式对A进行求偏导数并令式子为零得到

2AH+μ(A-B)＝0,

其中，H＝k(A^TA)^k-1；最终，可以得到优化后的A

A＝μB(2H+μI)^-1.

这里H是由A计算得到，可以利用交替迭代H和A得到最终优化后的A；

(2)当固定A和时，优化E

这时，目标函数的拉格朗日函数可以表示为

其中，F＝X-A+Y/μ；上式可以表示为以下形式

其中，进一步地，将上式表示为

其中，O是一个对角矩阵，且O_ii＝o_i；上式可以利用迭代重加权方法进行求解；

当固定O时，根据上式对E进行求偏导数并令式子为零，得到

2λEO+μ(E-F)＝0,

最终，可以得到优化后的E

E＝μF(2λO+μI)^-1.

当固定E时，O的优化更新规则为

(3)固定A和E时，优化

这时，目标函数的拉格朗日函数可以表示为

对上式求偏导数并令式子等于零，则偏导数公式为

令则上述偏导数公式可以表示为

由于G_i可以通过A和I_i计算得到，因此，可以利用迭代算法来得到偏导数公式的最优解；G_i通过A和初始化的I_i计算得到，如果固定G_i，这时的I_i可以满足以下简化后的目标函数

I_i可以通过简化后的目标函数进行优化；

令Z_i＝A^TG_iA，则简化后的目标函数可以表示为

由于则上述公式可以展开为

式中，r_ci是I_i中的第c个对角元素，z_ci是Z_i中的第c个对角元素；r_ci可以由以下条件优化得到

通过优化I_i中每个对角元素，得到优化后的离散约束对角矩阵I_i。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国矿业大学，未经中国矿业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810949097.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于BSA基因定位的自动化分析方法
下一篇：一种以混合型位错为轴的正弦波形位错原子结构的建模方法

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法有效

专利文献下载