[发明专利]一种基于子空间随机化单细胞集成聚类方法在审
申请号: | 202011532299.7 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112735536A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 卢新国;高妍;李金鑫;彭绍亮;曾湘祥 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B40/30 | 分类号: | G16B40/30;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 空间 随机化 单细胞 集成 方法 | ||
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于子空间随机化单细胞集成聚类方法。其发明内容主要包括:(1)数据预处理;(2)随机子空间采样进行细胞相似度测量;(3)子空间融合;(4)通过基于谱聚类对整体相似性进行测量来进行单细胞聚类,得到最终结果。与现有技术相比,本发明提供了一种单细胞聚类方法,以表征新型细胞类型并检测种群内异质性,具有更强的统计能力和更好的稳定性。本发明的方法可行且有效,在识别到单细胞簇方面能取得良好的效果,对于研究复杂数据集细胞类型分类和鉴定具有重要意义。
技术领域
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于子空间随机化单细胞集成聚类方法。
背景技术
单细胞作为生物的基本结构和功能单位,存储重要的遗传信息。在细胞增殖和分化的过程中,许多因素会导致细胞异质性的发生,例如细胞状态,细胞的微环境和细胞内部过程的调节。以前,bulk测序技术通常一共分析成千上万个细胞,其中基因的表达值是所有细胞的平均得分。因此,它通常会突出显示群体的细胞类型,而掩盖诸如干细胞和癌细胞之类的稀有细胞类型。幸运的是,单细胞RNA测序(scRNA-seq)技术可以提取单细胞分辨率的转录组信息,改变了传统的转录组学研究。这种方法能够检测不能由测序混合细胞获得异构信息并揭示单个细胞的遗传结构和基因表达状态。它有助于确定新的细胞类型,提供了新的研究思路和用于在发生了深入的研究,开发机制,诊断和治疗复杂疾病开辟了新的方向。
聚类分析可以根据基因表达模式对细胞进行分组,对于挖掘scRNA-seq数据的基础信息至关重要。聚类分析的相关研究已应用于许多重点研究领域,例如发现细胞类型,重建细胞发育轨迹,命运决定以及建立复杂组织的空间模型。但是,由于单细胞中转录物的量少和测序技术偏见,scRNA-seq数据通常比大细胞RNA测序数据具有相对较高的噪声。scRNA-seq数据中最常见的噪声类型是dropout,即实际上某一个基因即使在细胞中是高表达状态,但由于技术敏感性的限制在测序中未检测到。dropout事件可以被视为数据中特殊类型的零值错误。另外,由于技术上的偏见,即使对于具有高表达水平的基因,数据噪声也可能在系统水平上随机发生。这给单细胞数据带来了新的挑战分析和计算。因此,基于此类嘈杂的单细胞基因表达数据的无监督聚类算法的使用已成为识别细胞类型的主要计算策略。目前许多计算方法已经被提出,用于识别细胞类型。例如,SC3(Kiselev VY, KirschnerK,Schaub MT,Andrews T,Yiu A,Chandra T,Natarajan KN,Reik W,Barahona M,GreenAR,et al.Sc3:consensus clustering of single-cell rna-seq data.NatMethods.2017;14(5):483.)是一种单细胞共识聚类方法,该方法采用欧氏距离或其他相关性方法来计算细胞之间的相似度,并使用PCA或规范化的Laplacian变换相似性矩阵。通过应用k-means聚类算法在各个分块数据上,构造一个一致矩阵,然后使用层次聚类获得最终的聚类结果;pcaReduce(Yau C,et al.pcareduce:hierarchical clustering of singlecell transcriptional profiles.BMC Bioinforma.2016;17(1):140.)在单细胞RNA测序数据的主要成分上应用k-means聚类,然后基于每对的概率密度函数迭代合并这些聚类来识别单细胞聚类。直到群集数量达到用户定义的数量为止。Seurat(Satija R, arrell JA,Gennert D,et al.Spatial reconstruction of single-cell gene expression data[J].Nature Biotechnology,2015,33(5):495-502.)是一种基于图模块化的聚类方法。基于单个细胞RNA序列数据主要组件之间的欧氏距离估计细胞间相似性,构建了一个具有SNN相似性的细胞图网络,最后运用Louvain得到的聚类结果。SIMLR(Wang B,Zhu J,PiersonE,et al.Visualization and analysis of single-cell RNA-seq data by kernel-based similarity learning[J].Nature Methods,2017,14(4):414.) 是一种多核学习方法,利用55个高斯内核估计细胞间的相似性构建细胞图,并在该图上使用频谱聚类算法进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011532299.7/2.html,转载请声明来源钻瓜专利网。