[发明专利]一种基于去噪网络正则化的多组学数据整合方法及系统有效
申请号: | 202011393211.8 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112908420B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 王伟文;戴道清;张曦文 | 申请(专利权)人: | 中山大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06F18/23213;G06F18/22 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 正则 多组学 数据 整合 方法 系统 | ||
1.一种基于去噪网络正则化的多组学数据整合方法,其特征在于,包括以下步骤:
S1:对多组学数据进行数据预处理,删除空值数量大于设定值的特征;
S2:将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;将组学数据表达矩阵进行带误差项的非负矩阵分解具体过程为:将组学数据表达矩阵Dv分解为样本空间表示和特征空间表示的乘积,以及一个误差项Ev,表达式为:
Dv=XZv+Ev,v=1,2,...,V, (1)
其中为样本的一致性表示,为不同组学数据类型所共有,每一行表示一个样本的低维嵌入,为组学数据类型v的特征空间表示,每一列对应特征的低维嵌入,d为用户设定的超参数;
对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数,初步目标函数表达式为:
(2)式中约束条件保证X和Zv的非负性,初步目标函数中F范数定义为L1范数定义为L2,1范数定义为
S3:利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;利用预处理后的组学数据构建样本相似性矩阵具体过程为:
在组学数据类型v中,定义样本i,j之间的相似性定义为:
其中,表示两个样本之间的欧氏距离,μ为用户自定义参数,其取值范围为0.3到0.8;εi,j定义为
其中为与样本i相似性最高的K个样本所构成的集合,为与中所有样本的欧氏距离的平均值;
S4:计算融合相似性矩阵的拉普拉斯矩阵,利用拉普拉斯矩阵构建正则项,并将构建的正则项与初步目标函数结合得到最终目标函数;
S5:利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。
2.根据权利要求1所述的一种基于去噪网络正则化的多组学数据整合方法,其特征在于,若组学数据的特征数量大于2000,则将组学数据按照方差从大到小排序,选取前2000个组学数据。
3.根据权利要求1所述的一种基于去噪网络正则化的多组学数据整合方法,其特征在于,相似性矩阵的去噪过程为:
利用局部邻域信息规范化相似矩阵得到Sv,其中Sv的元素定义为:
定义转移矩阵T,
去噪相似性矩阵由(5)式计算得到,
其中I为N×N阶的单位矩阵,α为去噪过程中的权重系数。
4.根据权利要求3所述的一种基于去噪网络正则化的多组学数据整合方法,其特征在于,得到融合相似性矩阵的过程为:
根据去噪相似性矩阵将样本i的K最近邻域更新为将去噪相似性矩阵在局部邻域上做规范化,
将再次规范化
使用交叉扩散迭代更新相似性矩阵,迭代更新如下,
迭代初始值取T表示迭代次数,融合相似性矩阵计算公式为
5.根据权利要求4所述的一种基于去噪网络正则化的多组学数据整合方法,其特征在于,计算融合相似性矩阵的拉普拉斯矩阵表示式为:
Lc=Dc-Wc,
其中Dc为N×N阶对角矩阵,对角元素去噪网络的正则项定义为trace(XTLcX),其中trace(·)为矩阵的求迹运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011393211.8/1.html,转载请声明来源钻瓜专利网。