[发明专利]一种二代测序数据分析平台的数据处理方法有效
申请号: | 201710803991.0 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107609350B | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 杨文娴;张翔;俞容山 | 申请(专利权)人: | 厦门极元科技有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B50/00 |
代理公司: | 厦门市新华专利商标代理有限公司 35203 | 代理人: | 朱凌 |
地址: | 361000 福建省厦门市自*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 二代 序数 分析 平台 数据处理 方法 | ||
本发明一种二代测序数据分析平台的数据处理方法,其中二代测序数据分析平台IMP将整个二代测序NGS处理流程实现为从输入FASTQ文件格式的短读长序列到输出标准VCF文件格式的变异检测的单个步骤,同时,还提供以标准SAM或BAM格式输出序列比对中间结果的选项,通过大量的内存访问、而不是使用缓慢的I/O来交换数据,可避免较慢的硬盘和SSD的I/O访问所需的数据搜索和加载时间,使哈希表写入或读出、删除重复比对记录,以及变异检测都更为迅速,在不影响分析质量的前提下,能实现快速的二代测序NGS数据分析,与现有方案相比速度提升达20倍。
技术领域
本发明涉及一种二代测序数据分析平台的数据处理方法。
背景技术
随着人类基因组计划的顺利实施和测序技术的快速发展,测序的成本显著降低,而测序速度得到了显著提高,人类全基因组测序的测序成本已经降至$1000以内,DNA序列的数据量呈指数增长。如何快速的利用、表达这些数据,进而分析与解释基因序列里的潜在问题,从海量数据里发掘出对人类有利的信息,成为一个迫切需要解决的问题。应用越来越广泛的人类全基因组测序(WGS)产生的序列数据、以及对海量序列数据进行快速分析处理的持续需求,使数据分析形成了一个新的技术瓶颈,对二代测序技术的临床应用成为制约。
同时,为了推动精准医疗,二代测序技术的临床应用对数据分析工具有如下的要求。第一,对程序运行时间上的要求,数据分析方法速度要快。由于二代测序技术产出数据的通量越来越高,检测数据分析方法的速度需要与之相匹配,才能够达到快速确认,快速应对的目的。第二,对数据的私密性的要求,基因数据的隐秘性和安全性需要得到保证。第三,分析精度上的要求。
目前在国际上生物信息学领域有许多二代测序数据分析工具可用,其中最广泛使用的短读长序列比对的工具包括SOAP3-dp、BWA-aln、BWA-mem和Arioc等,最常用的变异检测工具包括GATK HaplotypeCaller、Samtools-mpileup和freebayes等。在二代测序数据,尤其是人类全基因组测序的分析流程中被广泛采用的做法是BWA-GATK流程,该流程在变异检测的准确性方面实现了高性能,然而,将整个流程应用于人类全基因组测序WGS中是非常耗时的。
GATK流程由若干个独立的模块组成,分别完成序列比对、排序、去除重复序列、以及最后的变异检测各项任务。其中:
步骤1、序列比对是最基本、最重要的操作,序列比对时,将输入的短读长序列匹配到参考序列上,并生成SAM格式的比对文件;
步骤2、排序,是对SAM格式的比对文件中的所有序列比对记录,按照其在参考序列上的比对位置重新排序,并产生新的BAM文件;
步骤3、去除重复序列,是为了去除PCR扩增过程中产生的重复序列。在制备文库的过程中,由于PCR扩增过程中会产生一些偏差,有的序列被过量扩增,这些扩增出来的完全相同的序列会被比对到基因组的相同位置,从而影响到变异检测的精确度。因此,这个步骤会对这些由PCR扩增过程中产生的重复序列进行标记或者去除后产生新的BAM文件并输出,该输出文件为步骤4变异检测的输入。
该数据分析流程模块化强、步骤清晰,但是在实际应用过程中,由于二代测序尤其是人类全基因组测序的数据量大,在每一个模块之间从硬盘读写文件的IO十分耗时,使得整个流程的工作时间很长。例如30倍人类全基因组数据的分析处理,通常需要超过20个小时。全基因组数据分析也可以采用超级计算机中心的超级计算机完成,但是超级计算机的租金很高,资源也很有限。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门极元科技有限公司,未经厦门极元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710803991.0/2.html,转载请声明来源钻瓜专利网。