[发明专利]基于对抗自动编码器的单细胞RNA测序聚类方法在审
申请号: | 202010723087.0 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111785329A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 郭延明;武与伦;肖延东;老松杨 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20;G16B40/30;G06K9/62 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李博瀚 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对抗 自动 编码器 单细胞 rna 测序聚类 方法 | ||
本说明书一个或多个实施例提供基于对抗自动编码器的单细胞RNA测序聚类方法,综合了特定生物噪声建模,变异推断和深度聚类建模的优势。我们的模型约束了数据结构,并通过AAE模块进行聚类分析。在三个真实的scRNA‑seq数据集上进行的实验表明,与最新技术在聚类准确度,标准化互信息和调整兰德系数上相比,本方法的聚类性能都要好得多。
技术领域
本说明书一个或多个实施例涉及RNA测序技术领域,尤其涉及一种基于对抗自动编码器的单细胞RNA测序聚类方法。
背景技术
单细胞RNA测序(scRNA-seq)技术的进步使其能通过提供比常用批量RNA测序更高的分辨率的转录组个体细胞差异解决方案,彻底改变了转录组学研究。该技术使研究人员能够系统地研究细胞异质性,细胞发育轨迹以及跨大量细胞的肿瘤亚群的分类,而无监督聚类是分析scRNA-seq以实现上述任务的重要步骤。只有在聚类后,才能识别细胞类型,之后研究人员才能进一步描绘细胞功能状态并推断潜在的细胞动力学。
尽管聚类是传统的机器学习研究的领域之一,并且已经有一些代表性的方法,例如k均值和谱聚类等,但是由于scRNA-seq原始数据中的基因表达值的缺失,对这种数据的聚类分析仍然是一个挑战。这种数据缺失指的是存在一些错误的零计数,这可能是由于低测序深度和其他技术中的噪音或技术水平限制从而导致基因计数矩阵中没有记录的数据。如图1所示,不同的热力图颜色表示不同的基因表达水平(基因计数矩阵中的值)。显然,细胞中的大多数基因表达水平非常低,只有少数基因表达超过0。因此,这种缺失使scRNA-seq数据非常稀疏,让传统的聚类方法无法很好地处理该数据。为了缓解这个问题,当前已经提出了几种针对scRNA-seq数据的特定聚类算法,包括SNN-Clip,SIMLR和MPSSC。但是,它们在大型数据集上的计算成本很高,并且聚类性能仍然较差。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种基于对抗自动编码器的单细胞RNA测序聚类方法,以解决聚类性能较差的问题。
基于上述目的,本说明书一个或多个实施例提供了一种基于对抗自动编码器的单细胞RNA测序聚类方法,包括以下步骤:
利用基于深度技术自动编码器方法的零膨胀负二项分布特定损失函数对输入的数据进行数据重建,得到无噪音数据,并构建一个由编码器,中间隐藏层和解码器三部分构成的自动编码器框架,利用自动编码器的中间隐藏层中学习到隐藏层特征向量;
利用对抗自编码器对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量的聚合后验与先验分布进行匹配;
使用负二项分布特定损失函数作为重建损失函数,并使用改进深度嵌入聚类进行聚类,计算聚类损失;
联合优化约束特征的重建损失和聚类损失,迭代地更新聚类标签分配。
优选地,利用基于深度技术自动编码器方法的零膨胀负二项式分布损失函数对输入的数据进行数据重建,得到无噪音数据包括,
通过负二项式分布的均值和离散度以及代表数据缺失概率的附加系数估算零膨胀负二项式分布损失函数:
ZINB(X|π,μ,θ)=πδ0(X)+(1-π)NB(X|μ,θ)
其中μ表示负二项式分布的均值,θ表示离散度,π表示数据缺失概率的附加系数,ZINB表示零膨胀负二项式分布损失函数;
将零膨胀负二项式分布损失函数作为重建损失函数对输入的数据进行数据重建,得到无噪音数据。
优选地,利用对抗自编码器对隐藏层特征向量的先验分布进行约束包括:
在自动编码器的中间隐藏层顶部添加一个判别器,将自动编码器修改为对抗自编码器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010723087.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可自动调节规格的穿刺器
- 下一篇:一种基于深度学习的探地雷达智能反演方法