[发明专利]一种基因序列比对的云计算加速方法有效
申请号: | 201710880756.3 | 申请日: | 2017-09-26 |
公开(公告)号: | CN107704728B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 董守斌;刘柽;张铃启 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序列 计算 加速 方法 | ||
本发明公开了一种基因序列比对的云计算加速方法,包括步骤:1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;2)通过Spark对修改后的基因测序数据完成多节点分发;3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;5)运行结果保存在诸如HDFS、Amazon、S3等分布式文件系统。本发明采用一种更简单的方式将比对工具运行在Spark框架上,不仅可以很好的利用Spark的机制进行多机计算的调度、数据的分发、监控和容错,而且相较于JNI的实现方式,开发门槛低,代码维护简单,性能更好,扩展性可接近线性。
技术领域
本发明涉及生物基因数据处理领域,尤其是指一种基因序列比对的云计算加速方法,具体是基于云计算框架加速通用基因序列比对程序的方法。
背景技术
随着基因二代测序技术(Next generation sequencing,NGS)的发展,单个基因测序成本已下降至1000美元以下。与此同时,基因测序的数据正呈现爆炸式增长,以IlluminaHiSeqXTM Ten为例,一次运行可以产生60亿条序列信息。有关数据表明,每6个月基因数据量就会翻一番,而依照这个增长速度,到2020年,每年产生的基因数据将达到1个exabase(每4个base等于1个字节),而2025年,这个数据将增长至每年1个zettabase。基因测序数据量的增长及成本的降低都在以一个远超摩尔定律的速度在发展,如何快速处理所产生的基因数据正面临严峻的挑战。
无论采用何种测序技术,基因序列比对分析都是理解测序结果数据的最重要一步,也是目前耗时最长步骤之一。序列比对是将测序所得的短序列与已有的参考基因序列进行序列比对,寻找测序结果在参考基因序列上的精确定位。在二代测序技术中,根据测序方法的不同,又可分为单端测序(Single-read)与双末端测序(Paired-end/Mate-paired)两类。单端测序时将基因组随机打断,再对每个片段进行测序,最终只产生单个测序结果文件。双端测序则是对一个长的序列测得其两端序列,最终将产生互成一对的两个测序结果文件。现在的大多数二代测序平台都采用Fastq格式保存下机数据,测序时的一条读序(read),在Fastq文件中将以序列名,序列,“+”,质量分数四行数据描述。在双端测序得到的两个Fastq文件中,序列名相同,位置上一一对应的两条读序巧好为测序时同一个基因片段的两端序列。常用于对基因二代测序数据进行比对的工具有Bowtie2、BWA、MAQ、SOAP2等等,其中又以BWA软件在基因序列比对中应用的最为广泛。而这些成熟的基因序列的比对工具都有两个共同特点,即仅可在单台计算机上运行。当面对二代测序技术的高速发展,人们更希望能在多机上运行序列比对程序,以获取更高的并行效率及扩展性,使基因序列数据的处理可以在一个合理的时间范围内完成。目前在这个问题上已有的解决方案可大致分为以下两种:
一是采用MPI方式在多机上运行序列比对程序,例如pBWA和pMap。而如人们所知,MPI的效率虽高,但开发难度极大,且任何一个节点出问题都将导致整个任务的失败,容错上更多的需要人为保证。同时MPI的性能优化更多是针对超算硬件进行优化,而对于云上所采用的常用硬件,MPI做的优化通常不会有太大效果。
二是在Spark框架上采用JNI调用BWA软件,如SparkBWA及GATK4.0工具包中的BwaSpark都是采用了这类方案。相比于MPI解决方案,Spark方法的容错性由Spark框架本身保证,开发难度较低,但JNI的方式开发难度不小,且性能一般,有实验显示Java调用JNI空函数与Java调用Java空方法性能存在5倍左右的差距,而额外的性能优化还需要开发者对JVM机制有足够的了解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710880756.3/2.html,转载请声明来源钻瓜专利网。