[发明专利]基于分布式图模型的流式细胞计数据自动门控方法有效
申请号: | 201710007719.1 | 申请日: | 2017-01-05 |
公开(公告)号: | CN106841012B | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 田雨;李润泽;苟玲;王昱;李劲松 | 申请(专利权)人: | 浙江大学 |
主分类号: | G01N15/14 | 分类号: | G01N15/14;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分布式图模型的流式细胞计数据自动门控方法,将分布式技术应用于流式细胞计数据的门控计算;对于图模型所有按元素操作的执行并行化计算,提高程序执行性能;基于随机投影树的kNN搜索策略,降低构造图的时间到线性复杂度;Spark的分布式存储方式可以处理更大规模的数据集。利用随机投影树加快了kNN的搜索效率;对于边权值的操作进行了并行化;割图算法采用了并行化的社群划分算法。本发明通过分布式计算框架实现对流式细胞计数据的门控过程进行基于图模型的聚类分析,对原始数据进行自动的划分,从而提升数据分析效率和准确度,降低划分过程的重复劳动和人为主观因素。 | ||
搜索关键词: | 基于 分布式 模型 细胞 数据 自动 门控 方法 | ||
【主权项】:
1.一种基于分布式图模型的流式细胞计数据自动门控方法,其特征在于,该方法包括以下步骤:1)根据GraphLab框架将输入的细胞计数据文件变换为RDD类型,得到流式细胞计数据X={x1,x2,...,xN};2)输入流式细胞计数据X={x1,x2,...,xN}、邻域大小k、随机重复的次数r;N为数据点个数;输出C={c1,c2,...,cN},代表每个数据点被分配到的标签,即门控后的结果;3)基于随机投影树和GraphLab框架分布式构造kNN图:在Gather阶段,每个线程上随机生成若干超平面v,将每个数据点视为节点,本线程上的节点x选择满足最远点距离要求x·v≤median({z·v:z∈S}+δ)的节点自动成为邻居,在Scatter阶段节点x与邻居节点之间的边的权值为1,与非邻居节点之间的边的权值为0,当发现每个节点邻居个数达到k时,自动跳出,从而构建得到kNN图;S为节点的集合,δ为任意常数,median()表示取中值;为了达到需要的精度,反复执行2‑3次,取图的交集以保证准确度,得到最终的kNN图;4)通过GraphLab框架的Gather阶段遍历每一个节点x的所有边;通过GraphLab框架的Scatter阶段,根据所有的和该节点连接的节点,即该节点的邻域Vk(x)计算Jaccard系数Jk(xi,xj),将kNN图变成带权值图;
5)对得到的带权值图执行图割算法,得到一次划分C={c1,c2,...,cN}和目标函数Q值,Q值的计算如公式(2):
其中,J代表整幅带权值图的权值,δ(ci,cj)表示delta函数,当输入相等取1,否则取0;deg(vi)代表节点i的度,本模型中没有负权值,m表示带权值图中边的权值之和的1/2;6)重复r次步骤4),选择r次中最大Q值对应的C作为门控后的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710007719.1/,转载请声明来源钻瓜专利网。