[发明专利]一种二代测序数据分析平台的数据处理方法有效

申请号：	201710803991.0	申请日：	2017-09-08
公开（公告）号：	CN107609350B	公开（公告）日：	2020-04-03
发明（设计）人：	杨文娴;张翔;俞容山	申请（专利权）人：	厦门极元科技有限公司
主分类号：	G16B30/00	分类号：	G16B30/00;G16B50/00
代理公司：	厦门市新华专利商标代理有限公司 35203	代理人：	朱凌
地址：	361000 福建省厦门市自***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种二代序数分析平台数据处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明一种二代测序数据分析平台的数据处理方法，其中二代测序数据分析平台IMP将整个二代测序NGS处理流程实现为从输入FASTQ文件格式的短读长序列到输出标准VCF文件格式的变异检测的单个步骤，同时，还提供以标准SAM或BAM格式输出序列比对中间结果的选项，通过大量的内存访问、而不是使用缓慢的I/O来交换数据，可避免较慢的硬盘和SSD的I/O访问所需的数据搜索和加载时间，使哈希表写入或读出、删除重复比对记录，以及变异检测都更为迅速，在不影响分析质量的前提下，能实现快速的二代测序NGS数据分析，与现有方案相比速度提升达20倍。

技术领域

本发明涉及一种二代测序数据分析平台的数据处理方法。

背景技术

随着人类基因组计划的顺利实施和测序技术的快速发展，测序的成本显著降低，而测序速度得到了显著提高，人类全基因组测序的测序成本已经降至$1000以内，DNA序列的数据量呈指数增长。如何快速的利用、表达这些数据，进而分析与解释基因序列里的潜在问题，从海量数据里发掘出对人类有利的信息，成为一个迫切需要解决的问题。应用越来越广泛的人类全基因组测序（WGS）产生的序列数据、以及对海量序列数据进行快速分析处理的持续需求，使数据分析形成了一个新的技术瓶颈，对二代测序技术的临床应用成为制约。

同时，为了推动精准医疗，二代测序技术的临床应用对数据分析工具有如下的要求。第一，对程序运行时间上的要求，数据分析方法速度要快。由于二代测序技术产出数据的通量越来越高，检测数据分析方法的速度需要与之相匹配，才能够达到快速确认，快速应对的目的。第二，对数据的私密性的要求，基因数据的隐秘性和安全性需要得到保证。第三，分析精度上的要求。

目前在国际上生物信息学领域有许多二代测序数据分析工具可用，其中最广泛使用的短读长序列比对的工具包括SOAP3-dp、BWA-aln、BWA-mem和Arioc等，最常用的变异检测工具包括GATK HaplotypeCaller、Samtools-mpileup和freebayes等。在二代测序数据，尤其是人类全基因组测序的分析流程中被广泛采用的做法是BWA-GATK流程，该流程在变异检测的准确性方面实现了高性能，然而，将整个流程应用于人类全基因组测序WGS中是非常耗时的。

GATK流程由若干个独立的模块组成，分别完成序列比对、排序、去除重复序列、以及最后的变异检测各项任务。其中：

步骤1、序列比对是最基本、最重要的操作，序列比对时，将输入的短读长序列匹配到参考序列上，并生成SAM格式的比对文件；

步骤2、排序，是对SAM格式的比对文件中的所有序列比对记录，按照其在参考序列上的比对位置重新排序，并产生新的BAM文件；

步骤3、去除重复序列，是为了去除PCR扩增过程中产生的重复序列。在制备文库的过程中，由于PCR扩增过程中会产生一些偏差，有的序列被过量扩增，这些扩增出来的完全相同的序列会被比对到基因组的相同位置，从而影响到变异检测的精确度。因此，这个步骤会对这些由PCR扩增过程中产生的重复序列进行标记或者去除后产生新的BAM文件并输出，该输出文件为步骤4变异检测的输入。

该数据分析流程模块化强、步骤清晰，但是在实际应用过程中，由于二代测序尤其是人类全基因组测序的数据量大，在每一个模块之间从硬盘读写文件的IO十分耗时，使得整个流程的工作时间很长。例如30倍人类全基因组数据的分析处理，通常需要超过20个小时。全基因组数据分析也可以采用超级计算机中心的超级计算机完成，但是超级计算机的租金很高，资源也很有限。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门极元科技有限公司，未经厦门极元科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710803991.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种生物分析平台中的项目实施质控系统
下一篇：一种面向多个出版单位的数字资源发售系统及方法

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种二代测序数据分析平台的数据处理方法有效

专利文献下载