[发明专利]一种基因序列比对的云计算加速方法有效
申请号: | 201710880756.3 | 申请日: | 2017-09-26 |
公开(公告)号: | CN107704728B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 董守斌;刘柽;张铃启 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序列 计算 加速 方法 | ||
1.一种基因序列比对的云计算加速方法,其特征在于,包括以下步骤:
1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;对基因测序仪的下机数据文件Fastq进行预处理包括读取数据,修改与合并多个输入文件及将数据保存至分布式文件系统或共享文件系统上;所述读取数据,合并多个输入文件及将数据保存至分布式文件系统或共享文件系统的预处理步骤采用流水线模式优化;
所述修改与合并多个输入文件,包括以下步骤:
1.1)对于Fastq文件,在一个数据单元内,统一使用不可见字符替换所有的回车字符,不同数据单元之间,以回车字符进行标记,其中,将以Fastq文件中每四行组成的一条读序完整信息称作Fastq文件的一个数据单元,而对于双末端测序,成对的读序称为修改后文件的一个数据单元;
1.2)将两个Fastq文件中一一对应的数据单元相互连接;
1.3)重复步骤1.1)、1.2),直至Fastq文件处理完毕,并生成一个新的数据文件;
2)通过Spark对修改后的基因测序数据完成多节点分发;
针对步骤1.1)中以回车字符为不同数据单元间的标记这前提,选用按行读取的SparkAPI对数据进行读取,Spark API将会承担对数据进行多节点分发的操作;
3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;
4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;
5)运行结果保存在分布式文件系统。
2.根据权利要求1所述的一种基因序列比对的云计算加速方法,其特征在于,在步骤3)中,对每个节点的处理数据恢复原有数据形态,以下操作二选一:
①将所有数据中的不可见字符重新恢复为回车字符,恢复后的中间数据写入各个节点本地硬盘;
②将所有数据中的不可见字符重新恢复为回车字符,恢复后的中间数据保存在Spark的RDD中。
3.根据权利要求1所述的一种基因序列比对的云计算加速方法,其特征在于:在步骤4)中,所述pipe算子实现在Spark中调用外部程序处理RDD中数据,处理后数据保存在新的RDD中,其中,pipe算子调用的外部程序即为基因序列比对程序,其参数为基因序列比对程序执行脚本的保存路径。
4.根据权利要求3所述的一种基因序列比对的云计算加速方法,其特征在于:所述基因序列比对程序为BWA。
5.根据权利要求1所述的一种基因序列比对的云计算加速方法,其特征在于:在步骤5)中,使用hadoop API将含有基因序列比对程序运行结果的RDD保存于分布式文件系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710880756.3/1.html,转载请声明来源钻瓜专利网。