[发明专利]一种基因序列比对的云计算加速方法有效
申请号: | 201710880756.3 | 申请日: | 2017-09-26 |
公开(公告)号: | CN107704728B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 董守斌;刘柽;张铃启 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基因序列比对的云计算加速方法,包括步骤:1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;2)通过Spark对修改后的基因测序数据完成多节点分发;3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;5)运行结果保存在诸如HDFS、Amazon、S3等分布式文件系统。本发明采用一种更简单的方式将比对工具运行在Spark框架上,不仅可以很好的利用Spark的机制进行多机计算的调度、数据的分发、监控和容错,而且相较于JNI的实现方式,开发门槛低,代码维护简单,性能更好,扩展性可接近线性。 | ||
搜索关键词: | 一种 基因 序列 计算 加速 方法 | ||
【主权项】:
一种基因序列比对的云计算加速方法,其特征在于,包括以下步骤:1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;2)通过Spark对修改后的基因测序数据完成多节点分发;3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;5)运行结果保存在分布式文件系统。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710880756.3/,转载请声明来源钻瓜专利网。