[发明专利]提升基因组组装完整性的方法、装置及其应用有效
申请号: | 202111365725.7 | 申请日: | 2021-11-18 |
公开(公告)号: | CN113808668B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 李本萍;田仕林;周勋;陶琳娜;王静 | 申请(专利权)人: | 北京诺禾致源科技股份有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20;G16B40/00 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 路秀丽 |
地址: | 102200 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提升 基因组 组装 完整性 方法 装置 及其 应用 | ||
本发明提供了一种提升基因组组装完整性的方法、装置及其应用。该方法包括:获取目标样本的初步的染色体版本基因组;利用三代测序短序列与初步的染色体版本基因组的序列进行比对,将最优比对短序列根据染色体进行聚类,得到多个类群;在多个类群里对三代测序短序列的序列进行局部组装,从而获得完整性提升的组装基因组序列。通过首先利用测序序列,进行常规组装得到初组装基因组序列并进行染色体挂载之后,将三代短序列比对回上述的基因组上,将最优比对的三代短序列根据染色体聚成多个类群,之后在每个类群里做三代局部组装,从而获得完整性更高的基因组序列。
技术领域
本发明涉及基因组序列组装领域,具体而言,涉及一种提升基因组组装完整性的方法、装置及其应用。
背景技术
自1977年起,DNA测序技术先后经历了三个阶段。第一阶段主要是依据桑格尔(Sanger)和考尔森(Coulson)提出的双脱氧链末端终止法技术,也称为Sanger测序;第二阶段主要是以Roche公司的454测序平台、Illumina公司的Solexa测序系统为代表的第二代测序技术,也称为新一代测序技术(Next-generation sequencing technology,NGS);第三个阶段主要是以Pacific Biosciences公司的SMRT(single molecule real time)技术、Oxford Nanopore Technologies公司的纳米孔单分子测序技术,被认为是第三代测序技术。
伴随着测序的产生,科研工作者也开启了对物种基因组的探索。从小至几千碱基的噬菌体基因组,到三十亿碱基的人类基因组,再到最近公布的上百亿碱基的裸子植物(如加州红杉)和脊索动物(如非洲肺鱼)基因组,人们正在一点点的揭开基因组的神秘面纱。在这些研究的背后,基因组从头组装无疑是发挥了基础性的作用。并且随着研究的进一步深入,人们对组装基因组的连续性要求越来越高。在二代测序阶段,基因组组装的一般都比较碎,基因组N50通常在KB量级。后来随着三代长读长测序技术的产生,测序reads读长平均就可以达到几十到几百KB,从而使得组装基因组的连续性得到大幅度提高,重叠群 N50(Contig N50)基本上都在MB量级。并且借助Bionano、Hic等技术,可以将基因组挂载到染色体水平(重叠群之间用N连接,即空缺gap)。
最近,随着Pacbio推出HIFI测序模式(长度大于10kb,准确性大于99%),Nanopore推出Ultra-long模式(短序列 N50在60K以上),人们逐渐开始挑战基因组组装的终极目标,即整个基因组的染色体实现完整的从端粒到端粒组装(记为T2T组装),而没有任何空缺(gap)。然而,由于物种本身复杂的重复特性,以及组装算法的限制和组装策略的问题,目前除了人和水稻等少量物种实现了T2T组装之外,大部分物种基因组的空缺个数还依旧很多。
HiFi reads(High fidelity reads)是PacBio公司推出的基于CCS测序模式的兼具长读长和高准确度的测序序列,又称CCS序列。在这种测序模式下,因酶读长(平均~100Kb以上)远大于插入片段长度(~20 Kb),测序时,聚合酶会绕着DNA模板进行环形测序,使得插入片段被多次测序,产生多条subreads。之后来源于同一条模板链的subreads经过一致性校正,最终得到长度大于10KB,准确性大于99%的HiFi reads,用于基因组组装。
Nanopore Ultralong测序模式是Nanopore公司推出的可以有效提升测序readsN50长度的测序模式。它是新一代基于纳米孔的单分子实时电信号测序技术,其原理是:纳米孔蛋白作为生物传感器,插入聚合物形成的膜中。此外,核酸分子会与马达蛋白(MotorProtein)连接,该马达蛋白一方面对双链进行解链,使核酸单链在电泳的作用下通过特定的纳米孔蛋白,另一方面可控制DNA/RNA分子的移动速度,保证碱基逐一地穿过纳米孔,产生稳定可靠的电信号。由于不同碱基的带电性质不同,通过检测电信号的差异就能检测出通过纳米孔的碱基类别从而实现测序。通常,经过Nanopore Ultralong测序模式产生的reads, Reads N50能达到60-80K以上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京诺禾致源科技股份有限公司,未经北京诺禾致源科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111365725.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:清仓机器人
- 下一篇:一种智能IT运维系统的KPI异常预警方法