[发明专利]一种二代测序数据分析平台的数据处理方法有效

专利信息
申请号: 201710803991.0 申请日: 2017-09-08
公开(公告)号: CN107609350B 公开(公告)日: 2020-04-03
发明(设计)人: 杨文娴;张翔;俞容山 申请(专利权)人: 厦门极元科技有限公司
主分类号: G16B30/00 分类号: G16B30/00;G16B50/00
代理公司: 厦门市新华专利商标代理有限公司 35203 代理人: 朱凌
地址: 361000 福建省厦门市自*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 二代 序数 分析 平台 数据处理 方法
【说明书】:

发明一种二代测序数据分析平台的数据处理方法,其中二代测序数据分析平台IMP将整个二代测序NGS处理流程实现为从输入FASTQ文件格式的短读长序列到输出标准VCF文件格式的变异检测的单个步骤,同时,还提供以标准SAM或BAM格式输出序列比对中间结果的选项,通过大量的内存访问、而不是使用缓慢的I/O来交换数据,可避免较慢的硬盘和SSD的I/O访问所需的数据搜索和加载时间,使哈希表写入或读出、删除重复比对记录,以及变异检测都更为迅速,在不影响分析质量的前提下,能实现快速的二代测序NGS数据分析,与现有方案相比速度提升达20倍。

技术领域

本发明涉及一种二代测序数据分析平台的数据处理方法。

背景技术

随着人类基因组计划的顺利实施和测序技术的快速发展,测序的成本显著降低,而测序速度得到了显著提高,人类全基因组测序的测序成本已经降至$1000以内,DNA序列的数据量呈指数增长。如何快速的利用、表达这些数据,进而分析与解释基因序列里的潜在问题,从海量数据里发掘出对人类有利的信息,成为一个迫切需要解决的问题。应用越来越广泛的人类全基因组测序(WGS)产生的序列数据、以及对海量序列数据进行快速分析处理的持续需求,使数据分析形成了一个新的技术瓶颈,对二代测序技术的临床应用成为制约。

同时,为了推动精准医疗,二代测序技术的临床应用对数据分析工具有如下的要求。第一,对程序运行时间上的要求,数据分析方法速度要快。由于二代测序技术产出数据的通量越来越高,检测数据分析方法的速度需要与之相匹配,才能够达到快速确认,快速应对的目的。第二,对数据的私密性的要求,基因数据的隐秘性和安全性需要得到保证。第三,分析精度上的要求。

目前在国际上生物信息学领域有许多二代测序数据分析工具可用,其中最广泛使用的短读长序列比对的工具包括SOAP3-dp、BWA-aln、BWA-mem和Arioc等,最常用的变异检测工具包括GATK HaplotypeCaller、Samtools-mpileup和freebayes等。在二代测序数据,尤其是人类全基因组测序的分析流程中被广泛采用的做法是BWA-GATK流程,该流程在变异检测的准确性方面实现了高性能,然而,将整个流程应用于人类全基因组测序WGS中是非常耗时的。

GATK流程由若干个独立的模块组成,分别完成序列比对、排序、去除重复序列、以及最后的变异检测各项任务。其中:

步骤1、序列比对是最基本、最重要的操作,序列比对时,将输入的短读长序列匹配到参考序列上,并生成SAM格式的比对文件;

步骤2、排序,是对SAM格式的比对文件中的所有序列比对记录,按照其在参考序列上的比对位置重新排序,并产生新的BAM文件;

步骤3、去除重复序列,是为了去除PCR扩增过程中产生的重复序列。在制备文库的过程中,由于PCR扩增过程中会产生一些偏差,有的序列被过量扩增,这些扩增出来的完全相同的序列会被比对到基因组的相同位置,从而影响到变异检测的精确度。因此,这个步骤会对这些由PCR扩增过程中产生的重复序列进行标记或者去除后产生新的BAM文件并输出,该输出文件为步骤4变异检测的输入。

该数据分析流程模块化强、步骤清晰,但是在实际应用过程中,由于二代测序尤其是人类全基因组测序的数据量大,在每一个模块之间从硬盘读写文件的IO十分耗时,使得整个流程的工作时间很长。例如30倍人类全基因组数据的分析处理,通常需要超过20个小时。全基因组数据分析也可以采用超级计算机中心的超级计算机完成,但是超级计算机的租金很高,资源也很有限。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门极元科技有限公司,未经厦门极元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710803991.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top