[发明专利]一种基于去噪网络正则化的多组学数据整合方法及系统有效
申请号: | 202011393211.8 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112908420B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 王伟文;戴道清;张曦文 | 申请(专利权)人: | 中山大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06F18/23213;G06F18/22 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 正则 多组学 数据 整合 方法 系统 | ||
本发明公开了一种基于去噪网络正则化的多组学数据整合方法及系统,所述方法包括:对多组学数据进行数据预处理,删除空值数量大于设定值的特征;将预处理后的组学数据构建为组学数据表达矩阵,将组学数据表达矩阵进行带误差项的非负矩阵分解,对分解后的组学数据表达矩阵通过稀疏优化构建初步目标函数;利用预处理后的组学数据构建样本相似性矩阵,对样本相似性矩阵去噪后融合得到融合相似性矩阵;计算融合相似性矩阵的拉普拉斯矩阵,由拉普拉斯矩阵构建正则项,并将其与初步目标函数结合得到最终目标函数;利用交替方向临近梯度法求解最终目标函数得到组学数据样本一致性表示。本发明减轻了噪声影响同时消除了各组学数据特异性信号的影响。
技术领域
本发明涉及生物信息技术领域,更具体地,涉及一种基于去噪网络正则化的多组学数据整合方法及系统。
背景技术
随着测序技术的快速发展,大量的高通量测序数据得以积累,这些测序数据包括基因表达水平、甲基化水平、微小核糖核酸(miRNA)表达水平、基因拷贝变异数等,它们从基因组学、转录组学、蛋白组学等多组学的角度,多方位地描述了癌症在分子水平的表现及相应的生物过程。深入了解多组学数据,挖掘不同组学数据之间的联系,对揭示癌症的机理,探索针对性的治疗手段具有十分重要的意义。但是,如何有效地整合多组学数据,从中抽取具有临床意义的信息,是一个十分具有挑战性的问题。其原因有二。多组学数据通常是小样本、高维度,理论上属于欠定问题,小样本导致模型的推广能力弱,高维度存在大量的信息冗余,传统的数据分析技术并不能有效解决这类问题,这是原因之一。另一方面,不同组学数据之间,同质性和特异性同时存在,同质性反映不同组学数据之间的联系,特异性体现各组学数据自身的独特信息,这一对矛盾给挖掘多组学数据一致性信息造成障碍,这是原因之二。
针对上述两个挑战,研究人员提出了不同解决方法。这些方法中,基于非负矩阵分解框架的技术因其优越性而备受关注。首先,非负矩阵分解将组学数据分解为样本空间表示和特征空间表示两个部分,使得分析同时能够从样本和特征的角度考虑,具有较好的解释能力。此外,非负矩阵分解方法要求满足非负矩阵约束,有利于挖掘异构数据中的共同模式,即多组学数据中的一致性信息。这些方法中,与本发明最接近的技术方案主要有以下几种:
1、基于联合非负矩阵分解的多组学数据整合方法(Zhang S,Liu CC,Li W,ShenH, Laird PW,Zhou XJ.Discovery of multi-dimensional modules by integrativeanalysis of cancer genomic data.Nucleic Acids Res 2012;40(19):9379-9391.)。该方法将各组学数据分别作非负矩阵分解,将数据矩阵分解为样本空间表示和特征空间表示的乘积,同时要求不同组学的数据矩阵共享同一个样本空间表示。
2、与联合非负矩阵分解类似,将数据矩阵分解为样本空间表示和特征空间表示的乘积(Hellton KH,Thoresen M.Integrative clustering of high-dimensional datawith joint and individual clusters.Biostatistics 2016;17(3):537-548.),不同之处在于,各组学的数据矩阵有其自身独特的样本空间表示,但要求这些独特的样本空间表示满足一致性约束,即它们均接近一个相同一致性样本表示。实验数据表明,这些方法能够有效地整合多组学数据。但它们依然存在一些缺陷。其一,受测序技术、处理手段等因素的影响,组学数据矩阵不可避免地受到噪声的影响,而上述方法并没有直接考虑组学数据的噪声水平。其二,它们或忽视组学数据的特异性这一作为学习多组学数据一致性样本表示不利因素,或在模型中引入更多的变量来描述该因素,使得模型更为复杂,进而导致求解上的困难。
发明内容
本发明为克服上述现有技术中组学数据整合时受噪声影响较大、忽视组学数据特异性信号影响的缺陷,提供一种基于去噪网络正则化的多组学数据整合方法及系统。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011393211.8/2.html,转载请声明来源钻瓜专利网。