[发明专利]组装基因组序列的方法和系统有效

专利信息
申请号: 201410272988.7 申请日: 2014-06-18
公开(公告)号: CN104017883A 公开(公告)日: 2014-09-03
发明(设计)人: 詹东亮 申请(专利权)人: 深圳华大基因科技服务有限公司
主分类号: C12Q1/68 分类号: C12Q1/68;C12M1/00
代理公司: 广州三环专利代理有限公司 44202 代理人: 郝传鑫;付静
地址: 518083 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 组装 基因组 序列 方法 系统
【说明书】:

技术领域

发明涉及生物信息技术领域,尤其涉及一种组装基因组序列的方法和装置。

背景技术

第二代测序技术极大地推动了生物信息学的发展,已经有大量物种的基因组被测序。但目前第二代测序技术产生的都是长约100bp~150bp左右的小片段序列,仅100~150bp的读长(reads)相比庞大的基因组,使得完成拼接工作变得无比艰巨,不少用户虽然获得了大量的测序数据,测序覆盖深度达到了几十倍甚至上百倍,但仍然没法完成基因组的拼接。如何将这些测序得到的海量小片段序列数据还原为样品中的大片段数据给后续的信息分析工作提出了极大的挑战,需要通过非常大的运算量才有可能完成对大片段数据的还原。而且,基因组De Novo组装(从头组装)还会遇到如何跨越高重复区域(复杂动植物及真菌)、高GC(微生物)和高AT含量区域的难题,这些区域结构极其复杂,含有大量串联重复,现有的第二代测序技术的短读长,无法获得这些高度重复区域的准确的序列,难以获得整个基因组的完美拼接。就好象把一幅图打成非常小的碎片,然后做拼图,由于碎片太小,因此碎片数目很多,而且许多小碎片非常相似,看起来都差不多,要拼出一副完整的图难度很大。此外,第二代测序技术文库制备时必须要先进行PCR扩增,PCR过程中的偏向(bias)或者错配(mismatch)等将无法在测序时修正,也就意味着这些错误会变成系统误差,且无法通过增加测序覆盖深度来消除。

第三代测序平台正在迅速发展中,Pacific Biosciences公司的PacBio RS单分子实时测序系统自2011年4月底推出以来,立刻成为广大研究者的热点,被誉为最有前途的第三代测序平台。Pacific Biosciences公司在2012年度发布了最新的PacBio RSII测序仪,并且升级了最新的试剂以及测序酶,结合最新的C2试剂和P4酶,PacBio RSII将平均读长提升至5kb,最长读长可以达到20kb以上,在测序所得的序列拼接、定位以及跨越重复区域的应用中有着极大优势,可以完全克服第二代测序技术的困难。相当于同样的一幅拼图,用大的碎片来做拼图,碎片的数目会减少,而且大碎片比小碎片的识别度要高,因此完成拼图的难度就可以大幅降低,组装获得的图质量会大大提高,这对De Novo组装,特别是复杂细菌以及复杂动植物基因组的图谱组装质量的提升是空前的。而且,在PacBio平台上,文库制备时无需PCR扩增,因此避免了PCR产生的bias等。

但是,两年多过去了,研究人员对采用第三代单分子实时测序技术一直保持慎重。其主要原因在于单分子实时测序的错误率相对较高,单次测序错误率15%,循环测序误差8%左右,其准确度与第二代测序技术有很大的差距,无法进行正常的后续分析。PacBio平台上目前的错误主要是插入和缺失。缺失错误源自于有时候碱基掺入速度过快,超过了PacBio相机的拍摄帧数。插入错误源自于有的时候酶随机的选择一些碱基,但并未将这些碱基真的掺入合成链中。

发明内容

针对现有技术中存在的问题,本发明的主要目的在于提供一种组装基因组序列的方法和系统,将第二代测序技术所得的高精度短片段序列数据和单分子实时测序所得长片段序列数据结合在一起进行基因组序列的组装,提高组装效率和准确率。

一方面,本发明提供了一种组装基因组序列的方法,包括:

利用第二代测序技术对样品进行测序,获得所述样品的高精度短片段序列;

对获得的所述高精度短片段序列进行拼接,获得第一拼接序列;

利用单分子测序技术对与上述同样来源的样品进行测序,获得所述同样来源样品的长片段序列;

对获得的所述长片段序列进行拼接,获得第二拼接序列;

将所述第一拼接序列定位到所述第二拼接序列上;

利用所述第一拼接序列中的所述高精度短片段序列对所述第二拼接序列中的所述长片段序列进行局部纠错,获得第三拼接序列。

在本发明的一个实施例中,上述方法还包括使用LSC软件和所述高精度短片段序列对第三拼接序列中未被第一拼接序列覆盖到的区域进行纠错。

在本发明的另一个实施例中,第二代测序技术采用的是HiSeq测序仪,单分子测序技术采用的是PacBio RSII测序仪。

在本发明的又一个实施例中,使用SOAPdenovo软件对获得的高精度短片段序列进行拼接。

在本发明的又一个实施例中,使用SOAPdenovo软件对获得的高精度短片段序列进行拼接包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410272988.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top