[发明专利]一种基于流形学习和主曲线的单细胞轨迹推断方法在审
申请号: | 202110109386.X | 申请日: | 2021-01-27 |
公开(公告)号: | CN112768001A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 卢新国;江开宝;何可人 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B25/10 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 流形 学习 曲线 单细胞 轨迹 推断 方法 | ||
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于流形学习和主曲线的单细胞轨迹推断方法。其发明内容主要包括:(1)收集已知单细胞RNA‑seq相关数据;(2)进行特征提取,选择可变基因作为特征;(3)进行数据降维,缓解维度诅咒;(4)局部定义主曲线,提出了一个初始化过程;(5)应用分段子空间约束的均值移动算法建立最终主曲线模型;(6)对模型进行伪时间分析,建立直树拓扑图;(7)在直树拓扑图上进行差异表达基因检测。本发明提供了一种单细胞轨迹推断方法,以重建和捕获有机体内的谱系关系,能够检测差异表达基因,获取到基于对细胞分化的影响。本发明的方法可行且有效,对于研究组织或有机体内谱系关系和实现精准医疗具有重要意义。
技术领域
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于流形学习和主曲线的轨迹推断方法。
背景技术
重建组织或有机体内细胞间的谱系关系是生物学的一个长期目标,了解组织和有机体形成的谱系是生物学的基本问题之一。确定这些关系不仅可以提供有关正常组织发育和体内平衡的宝贵信息,而且可以提供有关发育障碍和疾病(如癌症)的宝贵信息。历史上,谱系追踪是通过在细胞中引入可遗传标记,然后追踪其后代来完成的。组成后代的不同细胞类型在发育上是相关的,因为所有这些标记细胞都来自同一个生成细胞。此外,在后代中发现的细胞类型的多样性体现了生成细胞的潜力。为了准确预测生成细胞的潜能,谱系追踪需要精确的细胞类型识别。理想情况下,人们会使用尽可能多的标记来实现更加精确的细胞类型分类。但是细胞类型识别通常基于有限数量的标记,因此潜在地掩盖了表达所选择的标记基因在细胞亚群内的变异性。因此,这种方法可能会对器官的复杂性产生偏见。
单细胞测序技术的迅速发展使我们能够以前所未有的分辨率探索生物系统。现在可以很容易地描述单个细胞而不是细胞群,这促进了我们对细胞内在异质性和动力学的基本理解。单细胞测序方案已经被开发用来测量不同的分子层,包括转录组学、表观基因组学和蛋白质组学。这些强大的测量手段的结合使得在多组学尺度上研究基因调控等重要的生物过程成为可能。单细胞组学数据,包括转录组学、蛋白质组学和表观基因组学数据,为研究细胞周期、细胞分化和细胞激活等细胞动力学过程提供了新的机会。这种动态过程可以使用轨迹推断(TI)方法(也称为伪时间分析)进行计算建模,这种方法根据细胞表达模式的相似性,可以对细胞沿轨迹进行排序。
尽管有这些技术突破,但由于单细胞测序数据的内在特征,包括细胞间的变异、数据的稀疏性、生物和技术噪音以及退出事件,分析和计算方面仍然存在一些挑战。有鉴于此,本发明提出了一种基于流形学习和主曲线的轨迹推断方法,其能够对单细胞动态分化轨迹过程进行建模和分析。
发明内容
本发明提出了一种基于流形学习和主曲线的轨迹推断方法。用以重建组织或者有机体内细胞间的谱系关系,确定这些关系不仅可以提供有关正常组织发育和体内平衡的宝贵信息,而且可以提供有关疾病(如癌症)的宝贵信息。主要包括以下步骤:
(1)数据集收集阶段,收集已知单细胞RNA-seq数据;
(2)进行特征提取,选择可变基因作为特征;
(3)进行数据降维,缓解维度诅咒,降低数据处理难度;
(4)局部定义主曲线,提出了一个初始化过程,提高了推断解的质量,并加快了收敛速度;
(5)分段子空间约束的均值移动算法建立最终主曲线模型;
(6)伪时间分析并建立直树拓扑图;
(7)差异表达基因检测。
1.数据收集阶段
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110109386.X/2.html,转载请声明来源钻瓜专利网。