[发明专利]基于Spark平台的XP-EHH算法的分布式处理实现方法有效

专利信息
申请号: 201610972593.7 申请日: 2016-11-07
公开(公告)号: CN106503235B 公开(公告)日: 2019-04-05
发明(设计)人: 周维;谢海兵;刘长春;罗静;张亚平 申请(专利权)人: 云南大学;中国科学院昆明动物研究所
主分类号: G06F16/182 分类号: G06F16/182;G06F16/2458;G06F9/50;G06N3/12
代理公司: 成都行之专利代理事务所(普通合伙) 51220 代理人: 温利平;陈靓靓
地址: 650091*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Spark平台的XP‑EHH算法的分布式处理实现方法,首先采集染色体数据,存储至HDFS文件系统,然后对染色体数据进行预处理,将预处理后的染色体数据缓存至Spark平台的RDD缓存中,将需要使用的数据广播到参与XP‑EHH算法分布式处理的Spark工作节点中;将ped文件RDD拆分成不同的片段,发放给各个Spark工作节点,各个Spark工作节点并行化地执行XP‑EHH计算的各个步骤,从而实现分布式处理。采用本发明可以因为XP‑EHH算法的并行化执行,使得在大数据环境下基于Spark平台的XP‑EHH算法能够保持良好的扩展性,进而能够克服现有实现方式无法支持大数据的问题。
搜索关键词: 基于 spark 平台 xp ehh 算法 分布式 处理 实现 方法
【主权项】:
1.一种基于Spark平台的XP‑EHH算法的分布式处理实现方法,其特征在于,包括以下步骤:S1:采集染色体数据,存储至HDFS文件系统,每条染色体数据包括三种文件:ped文件、map文件和pop文件,其中ped文件存储DNA变异位点序列信息,map文件存储ped中变异DNA序列每个位点在全局DNA序列中的位置,pop文件存储ped文件中DNA序列的随机分类,每条数据只属于一个分类;S2:对染色体数据进行预处理:对于ped文件,仅保留ped文件中每个样本的DNA序列名称和DNA序列字符串,删除其他信息,然后从pop文件中获取每条数据对应的所属分类,添加至ped文件的对应数据中,最后对ped文件中的每条数据的DNA序列字符串,分别进行奇位点提取和偶位点提取,将每条数据拆分成两条数据;对于map文件,仅保留map文件中每条数据的行号和变异位点在全局DNA中的位置,删除其他信息;S3:将步骤S2预处理后的染色体数据缓存至Spark平台的RDD缓存中,然后广播到参与XP‑EHH算法分布式处理的Spark工作节点中;S4:将ped文件RDD拆分成不同的片段,发放给各个Spark工作节点,各个Spark工作节点并行化地分别对所接收片段包含的位点执行Cutoff计算,将计算得到的每个位点对应的左右遗传距离边界值保存到CutoffRDD;S5:将ped文件RDD拆分成不同的片段,发放给各个Spark工作节点,各个Spark工作节点并行地从CutoffRDD中提取出对应位点的左右遗传距离边界值,对于DNA序列分别依次进行EHH计算、IHH计算和IHH积分,最后计算得到两个群体的XP‑EHH值,存储至HDFS文件系统中;其中,EHH计算公式如下:其中core代表ped文件中DNA序列的某个位点,core的取值范围为[0,DNA length],DNA length指DNA序列的长度;left表示遗传距离左侧边界,right表示遗传距离右侧边界;p表示ped中DNA序列条数;G表示ped中DNA序列在left,right之间字符串的个数统计,n表示G中统计的字符串数量;IHH计算公式如下:IHH=calculateEHH(core,i)*|(map(i)‑map(core))|其中,map()表示从map文件中获取的括号中位点在全局DNA序列中的位置;IHH积分计算公式如下:I=I_Left+I_Right
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学;中国科学院昆明动物研究所,未经云南大学;中国科学院昆明动物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610972593.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top