[发明专利]基于分布式图模型的流式细胞计数据自动门控方法有效
申请号: | 201710007719.1 | 申请日: | 2017-01-05 |
公开(公告)号: | CN106841012B | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 田雨;李润泽;苟玲;王昱;李劲松 | 申请(专利权)人: | 浙江大学 |
主分类号: | G01N15/14 | 分类号: | G01N15/14;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 模型 细胞 数据 自动 门控 方法 | ||
本发明公开了一种基于分布式图模型的流式细胞计数据自动门控方法,将分布式技术应用于流式细胞计数据的门控计算;对于图模型所有按元素操作的执行并行化计算,提高程序执行性能;基于随机投影树的kNN搜索策略,降低构造图的时间到线性复杂度;Spark的分布式存储方式可以处理更大规模的数据集。利用随机投影树加快了kNN的搜索效率;对于边权值的操作进行了并行化;割图算法采用了并行化的社群划分算法。本发明通过分布式计算框架实现对流式细胞计数据的门控过程进行基于图模型的聚类分析,对原始数据进行自动的划分,从而提升数据分析效率和准确度,降低划分过程的重复劳动和人为主观因素。
技术领域
本发明涉及流式细胞计技术,尤其涉及一种基于分布式图模型的流式细胞计数据自动门控方法。
背景技术
流式细胞计技术是目前较为先进的单细胞测量技术。是对悬液中的单细胞或其他生物粒子,通过检测标记的荧光信号,实现高速、逐一的细胞定量分析和分选的技术。质谱流式细胞计技术是在流式细胞计基础上发展出的新一代单细胞测量技术。利用稀土元素同位素标记特定抗原,控制抗原和单细胞表面的抗体特异性结合,接着气化细胞,控制其等离子体进入质谱,质谱对于同位数的技术结果代表着该细胞上被标记抗原的表达程度。而抗原表达程度和细胞的功能、种类密切相关,这个尺度的测量结果为免疫系统的研究,包括细胞的筛选、分型等提供了巨大的帮助。
大部分研究的基础是依靠这些标志物,逐步筛选出感兴趣的细胞亚群进而进行研究,这个过程称为门控。传统的门控方法是利用已有的领域知识,依靠具有关键信息的标记物的二维图,按照一定的层次,逐步从原始数据中手动分离出感兴趣的细胞亚群。几个商业化软件也是在这个基础上为使用者提供速度更快、交互性更强的操作:FCS Express、FlowJo、CytoBank等。随着单细胞数据维度的升高,门控变得越来越不可行。
学术界引入计算方法,着重在用非监督性学习——聚类来替代对数据集的人为的门控工作,大致方向包括基于密度,基于几何等。其中Cytobank的提供的聚类算法中只有比较基础的k-means和层次聚类等。而相较于这些方法,基于图的方法由于不需要对数据有着预先的形态假设,输入参数在较大的范围内都输出稳定的结果,对于稀少亚群具有识别和保留能力,能还可以衔接进一步的半监督学习和迁移数据挖掘模型,成为较好的选择。
传统的人工门控都是采样一个二维散点图划分策略,费时费力,人为主观因素大,不具可重复性,对于高维度无能为力,复杂度为O(m^2),m为数据点的维数。而这种方法,对于定义不好的组织(比如肝、脾)也没有金标准。
传统的聚类算法没有办法处理好模型假设和数据分布之间的一致性。比如k‐means是一个几何空间的多边形划分,很容易将一个多边形空间内明显分割的两块数据区域合并成一类;DBSCAN等依靠密度的聚类算法需要预估计密度核宽,因而对于尺寸小于这个核宽的区域就存在不适应性等。相较于这些方法,基于图的方法则很大程度上同时保持了全局和局部的数据特征。
常规的图算法计算过程往往会需要全局遍历节点和边,面对大规模的实验数据时会面临很大的时间和内存消耗。比如第一步通常需要构造kNN图,则需要遍历计算所有数据点之间两两距离,复杂度为O(n^2),n为数据点个数,同时预存边的权值。其他操作中,比如权值更新,边的增删,也存在许多按元素的操作方法,按照单线程的方式进行效率低下。当数据点到达百万数量级以后,常规的单机配置已经让内存消耗和计算时间变得难以忍受,这会限制通量越来越高的实验数据处理。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于分布式图模型的流式细胞计数据自动门控方法。
本发明的目的是通过以下技术方案来实现的:一种基于分布式图模型的流式细胞计数据自动门控方法,包括以下步骤:
(1)根据GraphLab框架将输入的细胞计数据文件变换为RDD类型,得到流式细胞计数据X={x1,x2,...,xN};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710007719.1/2.html,转载请声明来源钻瓜专利网。