[发明专利]一种基于单细胞RNA测序数据识别细胞类型的方法有效
申请号: | 201911042318.5 | 申请日: | 2019-10-30 |
公开(公告)号: | CN110797089B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 张伟;徐佳;李圆媛;陈海林;薛晓丽 | 申请(专利权)人: | 华东交通大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B40/30 |
代理公司: | 南昌华成联合知识产权代理事务所(普通合伙) 36126 | 代理人: | 张建新 |
地址: | 330013 江西省南*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 单细胞 rna 序数 识别 细胞 类型 方法 | ||
本发明提供了一种基于单细胞RNA测序数据识别细胞类型的方法。该方法有效地将高维矩阵低秩表示(Low Rank Representation)模型和图正则化理论结合起来,同时考虑数据的全局结构和局部结构特征来构建优化模型,通过采用交替方向乘子法(ADMM)来求解模型得到可靠的细胞与细胞间相似性矩阵,然后采用谱聚类方法对相似性矩阵进行聚类,从而实现对单细胞进行聚类,识别细胞类型。该方法可以显著提高单细胞RNA测序数据的聚类效果。
技术领域
本发明涉及数学与生物学交叉研究领域,具体涉及通过聚类算法进行细胞分类的方法。
背景技术
传统测序技术得到的是一群细胞(肿瘤细胞、免疫细胞、成纤维细胞和巨噬细胞的混合物)基因表达值的平均化,这样忽视了细胞之间基因表达的差异性,很难鉴别细胞之间表达的异质性。
近些年来,随着生物技术的不断发展,单细胞RNA测序技术能得到单个细胞内大量基因的表达信息,为辨别生物组织中各种细胞类型的转录组特征和全面揭示细胞之间基因表达的异质性提供了非常有力的工具。与传统的全基因组测序相比,单细胞测序不仅测量基因表达水平更加精确,而且还能检测到微量的基因表达子或罕见非编码RNA,其优势是全方位和多层次的。
通过对单细胞RNA测序数据进行聚类,可以有效地将不同类型细胞进行区分,有助于识别新的细胞类型。另外,准确地将单细胞进行聚类,对后面重构细胞伪轨迹、识别显著表达基因以及揭示未知细胞状态为进一步理解异质性有着重要的意义。
然而,由于技术原因,目前单细胞RNA测序得到的数据具有高维度、高噪声、数据缺失、稀疏的特点,这给对单细胞RNA测序数据的聚类算法设计带来了巨大的困难和挑战。传统基于批量平均化RNA测序数据的方法无法胜任单细胞RNA测序数据的分析。因此,迫切需要一种有效的方法来对单细胞RNA测序数据进行聚类。近几年来国内外学者提出了很多基于单细胞RNA测序数据进行聚类的方法,例如,Xu et al.,等学者提出了一种名为SNN-Cliq的方法对细胞进行有效分类,首先采用共享最邻近邻居(SNN)方法来计算细胞之间的相似性,然后使用图论中聚类理论模型来实现对单细胞RNA测序数据进行聚类。Wang et al.等学者认为不同的核函数可以刻画数据的不同信息表示,提出了一种融合多个核函数的方法SIMLR来构造细胞-细胞间相似性矩阵,然后基于构建的相似性矩阵采用传统谱聚类的方法来对细胞进行有效分类。Park et al.等学者基于SIMLR提出了一种改进的方法MPSSC来对单细胞RNA测序数据进行聚类,首先加入双随机相似性矩阵来得到相似性矩阵,然后通过对目标矩阵强加稀疏性约束来得到细胞分类。基于矩阵分解方面,Shao et al.等人采用非负矩阵分解(nonnegative matrix factorization(NMF))方法对单细胞RNA测序数据进行分解,得到基矩阵和系数矩阵,然后应用基矩阵来对单细胞进行分类,采用系数矩阵来识别特征基因。为了进一步提高聚类效果,Elyanow et al.,等人结合基因相互作用关系先验信息,提出了一种新的融合已知基因相互作用网络的非负矩阵分解方法NMFsc来将原始矩阵分解为两个低维矩阵:基因矩阵和细胞矩阵,认为已知网络中两基因如果相互连接那么在低维的基因矩阵中也有相似的表示。该方法不仅可以通过将降维的低阶细胞矩阵进行聚类,也可以用于原始数据矩阵中缺失元素的填充。然而,该方法的聚类效果依赖于高质量的已知基因网络。由于单细胞RNA测序数据存在严重的数据缺失(dropout),这给传统降维、聚类的方法带来了巨大挑战,为了克服这个问题,一些学者提出了一些列数据填充的方法,如MAGIC,sclmpute,Mclmpute等来尝试通过各种方法先补全缺失数据,然后基于补全的数据再进行聚类。近来Li et al.等学者提出一个基于网络嵌入(network embedding)的表示学习方法SCRL,通过数据驱动的非线性映射和引进先验信息(比如基因相互作用信息,pathway information)来对细胞和基因学习一个更有意义的低维表示矩阵,然后基于这个低维表示矩阵来进行聚类。Zheng et al.等学者提出了一种新的基于非负低秩表示的方法SinNLRR来获取细胞-细胞间相似性矩阵,然后通过对相似性矩阵进行谱聚类的方法对单细胞进行有效分类,识别新的细胞类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东交通大学,未经华东交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911042318.5/2.html,转载请声明来源钻瓜专利网。