[发明专利]基于第三代测序序列的补洞方法及装置有效
申请号: | 201810581026.8 | 申请日: | 2018-06-05 |
公开(公告)号: | CN108763871B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 周义其;李季;张锦波;蒋智;李瑞强 | 申请(专利权)人: | 北京诺禾致源科技股份有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡;董文倩 |
地址: | 100083 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 第三代 序列 方法 装置 | ||
本发明公开了一种基于第三代测序序列的补洞方法及装置。其中,该方法包括:对三代测序序列中包含的至少一个子测序序列进行比对,得到第一比对结果;从第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果;对第一提取结果进行精细比对,得到第二比对结果;从第二比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第二提取结果;将至少一个第二提取结果进行组装,得到一致性序列;使用一致性序列替换基因组草图中的原有序列;其中,gap序列为未知序列。本发明解决了在对测序数据进行基因组补洞的过程中,比对测序序列的过程速度很慢,导致资源消耗较大的技术问题。
技术领域
本发明涉及生物信息领域,具体而言,涉及一种基于第三代测序序列的补洞方法及装置。
背景技术
De novo组装已成为第二代测序(NGS)技术的主要应用之一。目前,有大量的软件可用于组装基因组草图,例如Velvet,ABySS和SOAPdeno等等。尽管如此,组装出的scaffold中会包含很多gap序列,一般用“N”来填充代表。一般而言,是由于低覆盖和重复区域的序列过于复杂而导致组装过程中软件无法判断该位置的对应序列,因此只能填充“N”碱基代表位置序列。虽然pair-end reads的距离信息可以将contig连接成更长的scaffold,但是这不能解决低覆盖和重复区域的固有问题:即不会增加新的序列信息到基因组草图中。而这些scaffolds中的gap序列,会对于后面的基因组学分析结果产生负面影响,例如基因预测时候会因为gap序列而无法进行预测,或者在gap序列没有办法进行结构变异检测。
自2011年以来,第三代测序Pacbio和Oxford Nanopore单分子实时测序技术逐步进入市场。第三代测序仪具有超长读长的特点,最长甚至可以达到1MB。基于第三代测序超长读长特点,使用第三代测序序列对基因组草图进行补洞,是目前提高基因组组装指标和准确性的一种很好的方案。
目前基于第三代测序数据进行基因组补洞主要采用PBjelly软件,但其所用的blasr比对软件速度非常慢。例如对于人的基因组,单纯比对的过程就需要几千个cpu小时,一般只能在高性能集群才能完成相关任务,这个过程耗时多而且费用昂贵,难以满足实际应用需求。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于第三代测序序列的补洞方法及装置,以至少解决在对测序数据进行基因组补洞的过程中,比对测序序列的过程速度很慢,导致资源消耗较大的技术问题。
根据本发明实施例的一个方面,提供了一种基于第三代测序序列的补洞方法,包括:对三代测序序列中包含的至少一个子测序序列进行比对,得到第一比对结果;从第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果;对第一提取结果进行精细比对,得到第二比对结果;从第二比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第二提取结果;将至少一个第二提取结果进行组装,得到一致性序列;使用一致性序列替换基因组草图中的原有序列;其中,gap序列为未知序列。
可选地,在从预设数量第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果之前,预设数量方法还包括:从预设数量三代测序序列中确定gap序列,预设数量gap序列中碱基用N表示。
可选地,预设数量gap序列的碱基数量为预设数量,其中,在预设数量gap序列的碱基数量小于预设数量的情况下,将预设数量gap序列左右两端的序列改为gap序列,直到预设数量gap序列的碱基数量达到预设数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京诺禾致源科技股份有限公司,未经北京诺禾致源科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810581026.8/2.html,转载请声明来源钻瓜专利网。