[发明专利]一种基因序列比对的云计算加速方法有效

申请号：	201710880756.3	申请日：	2017-09-26
公开（公告）号：	CN107704728B	公开（公告）日：	2021-01-19
发明（设计）人：	董守斌;刘柽;张铃启	申请（专利权）人：	华南理工大学
主分类号：	G16B30/10	分类号：	G16B30/10
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	冯炳辉
地址：	510006 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基因序列计算加速方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基因序列比对的云计算加速方法，其特征在于，包括以下步骤：

1)对基因测序仪的下机数据文件Fastq进行预处理，以保证数据分发时数据的完整性；对基因测序仪的下机数据文件Fastq进行预处理包括读取数据，修改与合并多个输入文件及将数据保存至分布式文件系统或共享文件系统上；所述读取数据，合并多个输入文件及将数据保存至分布式文件系统或共享文件系统的预处理步骤采用流水线模式优化；

所述修改与合并多个输入文件，包括以下步骤：

1.1)对于Fastq文件，在一个数据单元内，统一使用不可见字符替换所有的回车字符，不同数据单元之间，以回车字符进行标记，其中，将以Fastq文件中每四行组成的一条读序完整信息称作Fastq文件的一个数据单元，而对于双末端测序，成对的读序称为修改后文件的一个数据单元；

1.2)将两个Fastq文件中一一对应的数据单元相互连接；

1.3)重复步骤1.1)、1.2)，直至Fastq文件处理完毕，并生成一个新的数据文件；

2)通过Spark对修改后的基因测序数据完成多节点分发；

针对步骤1.1)中以回车字符为不同数据单元间的标记这前提，选用按行读取的SparkAPI对数据进行读取，Spark API将会承担对数据进行多节点分发的操作；

3)对每个节点所获得的修改后的基因数据，恢复其原有Fastq文件格式；

4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本，运行结果存储在Spark的弹性分布式数据集RDD中；

5)运行结果保存在分布式文件系统。

2.根据权利要求1所述的一种基因序列比对的云计算加速方法，其特征在于，在步骤3)中，对每个节点的处理数据恢复原有数据形态，以下操作二选一：

①将所有数据中的不可见字符重新恢复为回车字符_，恢复后的中间数据写入各个节点本地硬盘；

②将所有数据中的不可见字符重新恢复为回车字符_，恢复后的中间数据保存在Spark的RDD中。