[发明专利]基于光学图谱平台Irys的一种de novo测序数据组装方法有效
申请号: | 201610211082.3 | 申请日: | 2016-04-06 |
公开(公告)号: | CN106021978B | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 马丰收;张艺;何飞;刘洋 | 申请(专利权)人: | 晶能生物技术(上海)有限公司 |
主分类号: | G16B20/30 | 分类号: | G16B20/30 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
地址: | 201111 上海市闵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于光学图谱平台Irys的一种denovo测序数据组装方法,使用光学图谱平台Irys得到基因组装文件;同时,拿到NGS的scaffold文件:fai文件;数据预处理:通过设定阈值,过滤掉可信度低的比对结果,合并cmap文件,排序,计算N50;组装效果统计:统计BioNano与NGS比对结果,包括BioNano的contig与NGS的scaffold长度、个数以及总量;根据BioNano的contig与NGS的scaffold之间的网络拓扑关系,分类分析组装出的新的contig长度与scaffold长度。可以辅助基因组组装,明显提高物种的基因组装效果。 | ||
搜索关键词: | 基于 光学 图谱 平台 irys 一种 de novo 序数 组装 方法 | ||
【主权项】:
1.一种基于光学图谱平台Irys的一种denovo测序数据组装方法,其特征在于,步骤为:第一步,使用光学图谱平台Irys得到基因组装文件:xmap文件、q.cmap文件、r.cmap文件;同时,拿到NGS的scaffold文件:fai文件;第二步,数据预处理:通过设定阈值,过滤掉低可信度的比对结果,合并cmap文件,排序,计算N50;第三步,组装效果统计:统计BioNano与NGS比对结果,包括BioNano的contig与NGS的scaffold长度、个数以及总量;第四步,根据BioNano的contig与NGS的scaffold之间的网络拓扑关系,分类分析组装出的新的contig长度与scaffold长度;其中,第四步分类分析是指采用无向拓扑图显示两种方法中参与比对contig的大小与网络关系,BioNano的contig与NGS的scaffold按照一一对应、一对多、多对一的关系进行分类分析;一一对应,计算组装的contig长度;一对多,计算组装的scaffold长度;并且,所述的一一对应,计算组装的contig具体分为四类:i)BioNano的contig片段包含在NGS的scaffold中,表明组装出来的contig长度没有NGS的scaffold长度长;故此时gap为0,组装的contig记为NGS的scaffold长度Contig_length,NGS的scaffold长度为QLContig_length=QL;ii)NGS的scaffold片段包含在BioNano的contig中,说明两个酶切位点之间的距离,也就是记录的contig之间存在gap,则计算gap长度;假设两个酶切位点分别为RS、RE,记录的contig长度为RL,则gap长度,记为Gap_size,则Gap_size=RS+RL‑RE;iii)BioNano的contig长度与NGS的scaffold长度相等,此时gap为0,定义此时组装的contig长度记为Contig_length为两者的平均值,假设NGS的scaffold起始和结束位置分别为QS、QE,长度为QL,则有RE‑RS‑RL=QE‑QS‑QL,Contig_length=(RL+QL)/2;iiii)BioNano的contig长度与NGS的scaffold分为正方向比对与负方向比对,分别用“+”与“‑”区分;正方向比对,此时组装的contig长度Contig_length为Contig_length=RL‑RE+QE或者Contig_length=RS+QL‑QSGap为RL‑RE或者RS;BioNano的contig长度与NGS的scaffold负方向比对,此时,组装的contig长度Contig_length为Contig_length=RL‑RE+QL‑QEContig_length=RS+QSGap为QE或者QL‑QS;所述的一对多,计算组装的scaffold长度是指提取一条BioNano的contig与两条NGS的scaffold比对上的contig,并按照拼接方向,分为“++”、“+‑”、“‑+”、“‑‑”4种情况组装出更长的contig,即为组装的scaffold;当拼接方向为“++”时,定义此时组装的scaffold长度scaffold_length如下:scaffold_length=(RS2‑RS1)+QS1+(QL2‑QS2);当拼接方向为“+‑”时,定义此时组装的scaffold长度scaffold_length如下:scaffold_length=(RS2‑RS1)+QS1+(QS2‑QE2);当拼接方向为“‑+”时,组装的scaffold长度scaffold_length为:scaffold_length=(RS2‑RS1)+(QL1‑QS1)+(QL2‑QS2);当拼接方向为“‑‑”时,组装的scaffold长度scaffold_length为:scaffold_length=(RS2‑RS1)+(QL2‑QS1)+QE2;RS1:BioNano方法中contig1的开始位置;RE1:BioNano方法中contig1的末端位置;RS2:BioNano方法中contig2的开始位置;RE2:BioNano方法中contig2的末端位置;QS1:NGS方法中contig1的开始位置;QS2:NGS方法中contig1的末端位置;QE1:NGS方法中contig2的开始位置;QE2:NGS方法中contig2的末端位置;QL1:NGS方法中contig1的长度;QL2:NGS方法中contig2的长度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晶能生物技术(上海)有限公司,未经晶能生物技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610211082.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种智能捕鼠器
- 下一篇:一种钠基膨润土纺织浆料的制备工艺