[发明专利]基于高斯混合图变分自编码器的深度无监督单细胞聚类方法在审

专利信息
申请号: 202210506799.6 申请日: 2022-05-11
公开(公告)号: CN114783526A 公开(公告)日: 2022-07-22
发明(设计)人: 曾婉雯;张爽;范蕊 申请(专利权)人: 南开大学
主分类号: G16B40/30 分类号: G16B40/30;G16B20/00;G16B25/10;G06K9/62;G06N3/04;G06N3/08
代理公司: 天津市三利专利商标代理有限公司 12107 代理人: 韩新城
地址: 300450 天津市*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 混合 图变分 编码器 深度 监督 单细胞 方法
【说明书】:

发明公开一种基于高斯混合图变分自编码器的深度无监督单细胞聚类方法,使用蛋白质‑蛋白质相互作用关系PPIs(或调控元件相互作用HiChIP)初始化基因调控网络A;使用K‑means方法初始化每个细胞的细胞聚类C;令基因调控网络A、单细胞基因表达数据X(或调控元件开放程度数据X)通过图编码器得到隐层;获得细胞聚类C,从高斯混合模型GMM中采样得到细胞低维表示Z:使用解码器预测基因调控网络A;计算损失函数,反向传播更新A、GCN,重复上述步骤,直至收敛;输出基因调控网络A,细胞低维表示Z,细胞聚类C。本发明在构建基因调控网络A的过程中完成对细胞的聚类和细胞表示的降维。

技术领域

本发明涉及单细胞聚类技术领域,特别是涉及一种基于高斯混合图变分自编码器的深度无监督单细胞聚类方法。

背景技术

单细胞测序技术是指在单个细胞水平上,对基因组、转录组、表观组进行高通量测序分析的一项技术,它能够揭示单个细胞的基因结构和基因表达状态,反映细胞间的异质性,在肿瘤、发育生物学、微生物学、神经科学等领域发挥重要作用,正成为生命科学研究的焦点。单细胞测序的首先要解决的任务之一是识别样本中包含的细胞类型,即基于非监督算法完成细胞聚类。单细胞聚类能够为生物体或组织中处于不同发育阶段的所有细胞类型建立全面的参考,除了提供对基础生物学的更深层次的了解外,还能作为疾病研究的参考依据。由于许多下游分析都是基于细胞聚类进行的,因此单细胞聚类结果可能会对下游应用造成显著影响。因此,如何得到可靠的单细胞聚类是单细胞领域的关键挑战之一。

现有一些方法被设计用于处理高维和稀疏的基因组测序数据,特别是单细胞RNA-seq(scRNA-seq)数据(RNA-seq为转录组测序技术,就是把mRNA,smallRNA,NONcoding RNA等或者其中一些,用高通量测序技术进行测序分析,反映出它们的表达水平)以及单细胞ATAC-seq(scATAC-seq)数据(ATAC-seq为转座酶可及染色质测序技术,是一种利用Tn5转座酶用测序适配器标记全基因组染色质开放位置的有效方法)。由于基因组测序数据维数很高且十分稀疏,细胞之间的距离变得相似,距离的差异往往很小,因此对于识别细胞类型这一任务来说难度很大。特征选择或降维可以降低噪声并加快计算速度,主成分分析(PCA)和t-分布随机邻居嵌入(t-SNE)等降维技术常被用于对数据进行可视化并检查输入数据的分布。单细胞聚类的方法有多种类型,最流行的聚类算法是k-means,它迭代识别k个聚类中心,将每个细胞分配到最近的中心。但是,该算法是贪心的,不能保证找到全局最小值。另一个缺点是它倾向于确定大小相等的类群,这可能导致罕见的细胞类型被隐藏在更大的类群中。另一种广泛用于scRNA-seq的聚类算法是分层聚类,它将单个细胞按顺序组合成更大的簇或将簇分裂成更小的群,它的缺点是,时间和内存需求至少与数据点的数量成二次方增长,这意味着对大型数据集使用分层聚类的成本将非常高。

最近的研究专门为scATAC-seq数据分析开发出了几种方法:chromVAR,评估共享相同基序(motif)或功能注释的一组峰(peaks);scABC,根据测序深度对细胞进行加权,并应用加权K-medoid聚类来减少缺失值的影响,然后计算每个聚类的标签,并基于Spearman相关性将细胞分配给最近的标签。然而,每种方法都有值得注意的问题:chromVAR只能分析成组的峰,缺乏对单个峰的判断;而scABC严重依赖于具有高测序深度的标签样本,而且对于缺失值比较多的数据,特别是对于scATAC-seq数据,Spearman相关系数可能会定义错误。

总之,现有单细胞聚类方法的输入数据大多是细胞基因表达或染色质开放性,忽视了这些基因或者开放区域之间的相互作用关系,仅仅以向量形式作为模型输入。其次,因为没有考虑基因或开放区域之间的相互作用,现有方法仅仅能实现单细胞聚类而无法同时预测细胞类别特异的基因调控网络。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷,而提供一种基于高斯混合图变分自编码器的深度无监督单细胞聚类方法。

本发明第一方面,提供一种基于高斯混合图变分自编码器的深度无监督单细胞聚类方法,包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210506799.6/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top