[发明专利]使用三代序列优化二代组装结果的方法和装置有效
申请号: | 201710093627.X | 申请日: | 2017-02-21 |
公开(公告)号: | CN108460245B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 贺丽娟;邓天全;刘亚斌;杨林峰;高强 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 孙银行;彭家恩 |
地址: | 518083 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 序列 优化 二代 组装 结果 方法 装置 | ||
本发明公开了一种使用三代序列优化二代组装结果的方法和装置。该方法包括:获取二代组装结果和三代组装结果;以三代组装结果为参考序列,将二代组装结果比对到参考序列;获取二代组装结果的间隙序列两侧的重叠群序列中比对到参考序列和未比对到参考序列的序列;将未比对到参考序列的序列替换为间隙序列,得到新的间隙序列;对新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果。本发明能够提高基因组组装指标和拼接的准确性。
技术领域
本发明涉及测序序列组装技术领域,尤其涉及一种使用三代序列优化二代组装结果的方法和装置。
背景技术
目前,基因组组装主要基于全基因组鸟枪法(WGS)的Illumina测序平台得到的二代测序数据进行组装,其主要特点是测序通量高、速度快、精确度高、成本低,并且可以测量不同插入大小的DNA片段文库,尤其是大于1k的DNA片段文库。这种测序方法在简单基因组和部分比较复杂的基因组组装上有较好的应用效果,在平均测序深度足够深的情况下基本可以保证组装结果的准确性和基因组的完整性,因此二代测序是目前基因组组装的主流测序方法。但是这种测序方法由于测序片段短,采用双末端测序方法,对于大多数高重复、高杂合基因组,测序数据很难正确处理基因组具有很高复杂度的区域。因此在这些基因组组装过程中,仅用二代测序方法得到的数据容易导致组装结果精确度低,从而使最终装配的基因组组装指标不够高,而且由于无法识别的高杂合区域或者无法跨越的高重复区域而导致错误的连接及大量冗余序列的存在,会对后续的生物学分析造成很大的干扰。
随着基于第三代单分子实时测序技术(SMRT)的Pacbio数据的出现,其具有超长读长的测序特点已成为目前高重复、高杂合基因组组装的研究热点。但是由于Pacbio测序对样品要求高、测序产量低、测序成本高、单碱基错误率高等缺点,使三代数据进行全基因组组装的发展受到很大的限制。但是要提高测序的准确性,就需要较高的数据乘数才能修正其碱基错误,而高的数据乘数又需要承担高昂的测序费用,这对于大基因组的组装是一个很大的挑战。所以处理含较高复杂区域的大基因组的组装问题,用较低深度的Pacbio数据通过对Illumina组装结果进行修正及补洞处理,可有效应用于基因组的组装,尤其提高组装的Contig N50的指标。Contig N50是指将组装出的重叠群(Contig)或骨架序列(Scaffold)从大到小排列,当累计长度超过组装序列总长度的50%时,最后一个重叠群或骨架序列的长度即为对应的N50的大小,N50对评价基因组组装的完整性有很重要的意义。
发明内容
本发明提供一种使用三代序列优化二代组装结果的方法和装置,能够提高基因组组装指标和拼接的准确性。
根据本发明的第一方面,本发明提供一种使用三代序列优化二代组装结果的方法,包括:
获取二代组装结果和三代组装结果,其中上述二代组装结果包括重叠群序列和上述重叠群序列之间的间隙序列;
以上述三代组装结果为参考序列,将上述二代组装结果比对到上述参考序列;
获取上述二代组装结果的间隙序列两侧的重叠群序列中比对到上述参考序列和未比对到上述参考序列的序列;
将上述未比对到上述参考序列的序列替换为间隙序列,使得上述二代组装结果的间隙序列延长,得到新的间隙序列;
对上述新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果,优选地,所述三代数据包括原始数据、纠错数据、组装结果或者经过其他处理的数据。
根据本发明的第二方面,本发明提供一种用于使用三代序列优化二代组装结果的装置,包括:
第一获取装置,用于获取二代组装结果和三代组装结果,其中上述二代组装结果包括重叠群序列和上述重叠群序列之间的间隙序列;
比对装置,用于以上述三代组装结果为参考序列,将上述二代组装结果比对到上述参考序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710093627.X/2.html,转载请声明来源钻瓜专利网。