[发明专利]一种核酸第三代测序原始数据的处理方法及其应用有效

专利信息
申请号: 201710150622.6 申请日: 2017-03-14
公开(公告)号: CN108573127B 公开(公告)日: 2021-04-27
发明(设计)人: 刘亚斌;邓天全;贺丽娟;杨林峰;高强 申请(专利权)人: 深圳华大基因科技服务有限公司
主分类号: G16B20/30 分类号: G16B20/30
代理公司: 深圳鼎合诚知识产权代理有限公司 44281 代理人: 彭家恩;罗瑶
地址: 518083 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 核酸 第三代 原始数据 处理 方法 及其 应用
【说明书】:

本申请公开了一种核酸第三代测序原始数据的处理方法及其应用。本申请的核酸第三代测序原始数据的处理方法,包括将第二代短序列数据比对到第三代自纠错数据上,统计比对结果中第三代自纠错数据的单碱基覆盖深度,将单碱基覆盖深度低于阈值的区域屏蔽为N,采用第二代测序的补洞软件对N屏蔽区域进行补洞,以获得单碱基错误率较低的核酸第三代测序数据。本申请的核酸第三代测序原始数据的处理方法,利用第二代短序列数据与第三代长序列数据进行比对,并利用第二代测序的补洞软件对比对结果中单碱基覆盖深度较低的N屏蔽区进行补齐,有效的降低了第三代测序数据中的单碱基错误率,提高了测序质量。

技术领域

本申请涉及核酸测序数据处理领域,特别是涉及一种核酸第三代测序原始数据的处理方法及其应用。

背景技术

随着第二代测序技术(Next-generation sequencing,NGS)的成熟和普及,测序成本大大降低,其中二代测序仪Hiseq2500一次运行就可产出600Gb的数据量,相当于人类基因组的200倍。二代测序技术虽然可以快速产出大量数据,但是其有一个致命的缺点就是测序读长过短,众所周知,基因组组装最重要的指标就是N50以及基因组的完整度,但是传统二代测序技术由于其读长过短,其组装算法大多都是基于德布鲁因图论(de Bruijngraph)的思想,从而使得组装中遇到的最大的挑战就是解决高重复及高杂合基因组。

把组装出的重叠群(Contig)或骨架序列(Scaffold)从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个重叠群(Contig)或骨架序列(Scaffold)的大小即为N50的大小,N50对评价基因测序的完整性有重要意义。把组装出的重叠群(Contig)或骨架序列(Scaffold)从大到小排列,当其累计长度刚刚超过全部组装序列总长度90%时,最后一个重叠群(Contig)或骨架序列(Scaffold)的大小即为N90的大小。

在一条骨架序列(Scaffold)中,重叠群(Contig)之间无序列信息且被表示为N的区域,被称为洞(gap)。

K-mer是指将一条长度为L的序列,按照长度K由L序列的5’到3’端挨个碱基进行分割,从而得到L-K+1个长度为K的核苷酸序列。例如,长度为90bp的短序列,按照17bp从头到尾挨个碱基进行分割,可以得到74个17bp的连续序列,即17-mer序列。

第三代测序技术也称为单分子实时测序技术(Single Molecule Real Time,SMRT)。PacBio第三代测序仪具有超长读长、无PCR扩增偏差的单分子测序、直接分析碱基修饰等技术优势,已经快速应用于基因组de novo组装、转录组学研究等领域,其平均读长10-15Kb,最长读长可超过40Kb。第三代测序技术的优势就在于单分子测序,对于高杂合、高重复、或者高GC,不存在任何偏好,所以三代测序技术可以显著的提升重叠群(Contig)组装水平。

但是,第三代数据最大的问题就在于其极高的单碱基错误率,高达15%。其错误类型主要是插入缺失,并且随机分布,可以通过生物信息的手段进行一定程度的修正,目前发布的三代组装流程中,如SMRT、Falcon、Pbcr、Canu,都具有第三代数据自纠错的功能,可以将20倍以上的三代数据的错误率从15%降低到3%左右,但是3%的错误率对于基于OLC(Overlap-Layout-Consensus)算法的组装软件干扰依然很大。

因此,亟需一种错误率更低的第三代测序数据的处理方法,以提高核酸第三代测序的质量。

发明内容

本申请的目的是提供一种新的核酸第三代测序原始数据的处理方法,及其应用。

为了实现上述目的,本申请采用了以下技术方案:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710150622.6/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top