[发明专利]基于Spark平台的XP-EHH算法的分布式处理实现方法有效
申请号: | 201610972593.7 | 申请日: | 2016-11-07 |
公开(公告)号: | CN106503235B | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 周维;谢海兵;刘长春;罗静;张亚平 | 申请(专利权)人: | 云南大学;中国科学院昆明动物研究所 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/2458;G06F9/50;G06N3/12 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平;陈靓靓 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Spark平台的XP‑EHH算法的分布式处理实现方法,首先采集染色体数据,存储至HDFS文件系统,然后对染色体数据进行预处理,将预处理后的染色体数据缓存至Spark平台的RDD缓存中,将需要使用的数据广播到参与XP‑EHH算法分布式处理的Spark工作节点中;将ped文件RDD拆分成不同的片段,发放给各个Spark工作节点,各个Spark工作节点并行化地执行XP‑EHH计算的各个步骤,从而实现分布式处理。采用本发明可以因为XP‑EHH算法的并行化执行,使得在大数据环境下基于Spark平台的XP‑EHH算法能够保持良好的扩展性,进而能够克服现有实现方式无法支持大数据的问题。 | ||
搜索关键词: | 基于 spark 平台 xp ehh 算法 分布式 处理 实现 方法 | ||
【主权项】:
1.一种基于Spark平台的XP‑EHH算法的分布式处理实现方法,其特征在于,包括以下步骤:S1:采集染色体数据,存储至HDFS文件系统,每条染色体数据包括三种文件:ped文件、map文件和pop文件,其中ped文件存储DNA变异位点序列信息,map文件存储ped中变异DNA序列每个位点在全局DNA序列中的位置,pop文件存储ped文件中DNA序列的随机分类,每条数据只属于一个分类;S2:对染色体数据进行预处理:对于ped文件,仅保留ped文件中每个样本的DNA序列名称和DNA序列字符串,删除其他信息,然后从pop文件中获取每条数据对应的所属分类,添加至ped文件的对应数据中,最后对ped文件中的每条数据的DNA序列字符串,分别进行奇位点提取和偶位点提取,将每条数据拆分成两条数据;对于map文件,仅保留map文件中每条数据的行号和变异位点在全局DNA中的位置,删除其他信息;S3:将步骤S2预处理后的染色体数据缓存至Spark平台的RDD缓存中,然后广播到参与XP‑EHH算法分布式处理的Spark工作节点中;S4:将ped文件RDD拆分成不同的片段,发放给各个Spark工作节点,各个Spark工作节点并行化地分别对所接收片段包含的位点执行Cutoff计算,将计算得到的每个位点对应的左右遗传距离边界值保存到CutoffRDD;S5:将ped文件RDD拆分成不同的片段,发放给各个Spark工作节点,各个Spark工作节点并行地从CutoffRDD中提取出对应位点的左右遗传距离边界值,对于DNA序列分别依次进行EHH计算、IHH计算和IHH积分,最后计算得到两个群体的XP‑EHH值,存储至HDFS文件系统中;其中,EHH计算公式如下:![]()
其中core代表ped文件中DNA序列的某个位点,core的取值范围为[0,DNA length],DNA length指DNA序列的长度;left表示遗传距离左侧边界,right表示遗传距离右侧边界;p表示ped中DNA序列条数;G表示ped中DNA序列在left,right之间字符串的个数统计,n表示G中统计的字符串数量;IHH计算公式如下:IHH=calculateEHH(core,i)*|(map(i)‑map(core))|其中,map()表示从map文件中获取的括号中位点在全局DNA序列中的位置;IHH积分计算公式如下:I=I_Left+I_Right![]()
![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学;中国科学院昆明动物研究所,未经云南大学;中国科学院昆明动物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610972593.7/,转载请声明来源钻瓜专利网。