[发明专利]一种核酸第三代测序原始数据的处理方法及其应用有效
申请号: | 201710150622.6 | 申请日: | 2017-03-14 |
公开(公告)号: | CN108573127B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 刘亚斌;邓天全;贺丽娟;杨林峰;高强 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
主分类号: | G16B20/30 | 分类号: | G16B20/30 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 彭家恩;罗瑶 |
地址: | 518083 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 核酸 第三代 原始数据 处理 方法 及其 应用 | ||
本申请公开了一种核酸第三代测序原始数据的处理方法及其应用。本申请的核酸第三代测序原始数据的处理方法,包括将第二代短序列数据比对到第三代自纠错数据上,统计比对结果中第三代自纠错数据的单碱基覆盖深度,将单碱基覆盖深度低于阈值的区域屏蔽为N,采用第二代测序的补洞软件对N屏蔽区域进行补洞,以获得单碱基错误率较低的核酸第三代测序数据。本申请的核酸第三代测序原始数据的处理方法,利用第二代短序列数据与第三代长序列数据进行比对,并利用第二代测序的补洞软件对比对结果中单碱基覆盖深度较低的N屏蔽区进行补齐,有效的降低了第三代测序数据中的单碱基错误率,提高了测序质量。
技术领域
本申请涉及核酸测序数据处理领域,特别是涉及一种核酸第三代测序原始数据的处理方法及其应用。
背景技术
随着第二代测序技术(Next-generation sequencing,NGS)的成熟和普及,测序成本大大降低,其中二代测序仪Hiseq2500一次运行就可产出600Gb的数据量,相当于人类基因组的200倍。二代测序技术虽然可以快速产出大量数据,但是其有一个致命的缺点就是测序读长过短,众所周知,基因组组装最重要的指标就是N50以及基因组的完整度,但是传统二代测序技术由于其读长过短,其组装算法大多都是基于德布鲁因图论(de Bruijngraph)的思想,从而使得组装中遇到的最大的挑战就是解决高重复及高杂合基因组。
把组装出的重叠群(Contig)或骨架序列(Scaffold)从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个重叠群(Contig)或骨架序列(Scaffold)的大小即为N50的大小,N50对评价基因测序的完整性有重要意义。把组装出的重叠群(Contig)或骨架序列(Scaffold)从大到小排列,当其累计长度刚刚超过全部组装序列总长度90%时,最后一个重叠群(Contig)或骨架序列(Scaffold)的大小即为N90的大小。
在一条骨架序列(Scaffold)中,重叠群(Contig)之间无序列信息且被表示为N的区域,被称为洞(gap)。
K-mer是指将一条长度为L的序列,按照长度K由L序列的5’到3’端挨个碱基进行分割,从而得到L-K+1个长度为K的核苷酸序列。例如,长度为90bp的短序列,按照17bp从头到尾挨个碱基进行分割,可以得到74个17bp的连续序列,即17-mer序列。
第三代测序技术也称为单分子实时测序技术(Single Molecule Real Time,SMRT)。PacBio第三代测序仪具有超长读长、无PCR扩增偏差的单分子测序、直接分析碱基修饰等技术优势,已经快速应用于基因组de novo组装、转录组学研究等领域,其平均读长10-15Kb,最长读长可超过40Kb。第三代测序技术的优势就在于单分子测序,对于高杂合、高重复、或者高GC,不存在任何偏好,所以三代测序技术可以显著的提升重叠群(Contig)组装水平。
但是,第三代数据最大的问题就在于其极高的单碱基错误率,高达15%。其错误类型主要是插入缺失,并且随机分布,可以通过生物信息的手段进行一定程度的修正,目前发布的三代组装流程中,如SMRT、Falcon、Pbcr、Canu,都具有第三代数据自纠错的功能,可以将20倍以上的三代数据的错误率从15%降低到3%左右,但是3%的错误率对于基于OLC(Overlap-Layout-Consensus)算法的组装软件干扰依然很大。
因此,亟需一种错误率更低的第三代测序数据的处理方法,以提高核酸第三代测序的质量。
发明内容
本申请的目的是提供一种新的核酸第三代测序原始数据的处理方法,及其应用。
为了实现上述目的,本申请采用了以下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710150622.6/2.html,转载请声明来源钻瓜专利网。