[发明专利]基于光学图谱平台Irys的一种de novo测序数据组装方法有效

专利信息
申请号: 201610211082.3 申请日: 2016-04-06
公开(公告)号: CN106021978B 公开(公告)日: 2019-03-29
发明(设计)人: 马丰收;张艺;何飞;刘洋 申请(专利权)人: 晶能生物技术(上海)有限公司
主分类号: G16B20/30 分类号: G16B20/30
代理公司: 上海晨皓知识产权代理事务所(普通合伙) 31260 代理人: 成丽杰
地址: 201111 上海市闵*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于光学图谱平台Irys的一种denovo测序数据组装方法,使用光学图谱平台Irys得到基因组装文件;同时,拿到NGS的scaffold文件:fai文件;数据预处理:通过设定阈值,过滤掉可信度低的比对结果,合并cmap文件,排序,计算N50;组装效果统计:统计BioNano与NGS比对结果,包括BioNano的contig与NGS的scaffold长度、个数以及总量;根据BioNano的contig与NGS的scaffold之间的网络拓扑关系,分类分析组装出的新的contig长度与scaffold长度。可以辅助基因组组装,明显提高物种的基因组装效果。
搜索关键词: 基于 光学 图谱 平台 irys 一种 de novo 序数 组装 方法
【主权项】:
1.一种基于光学图谱平台Irys的一种denovo测序数据组装方法,其特征在于,步骤为:第一步,使用光学图谱平台Irys得到基因组装文件:xmap文件、q.cmap文件、r.cmap文件;同时,拿到NGS的scaffold文件:fai文件;第二步,数据预处理:通过设定阈值,过滤掉低可信度的比对结果,合并cmap文件,排序,计算N50;第三步,组装效果统计:统计BioNano与NGS比对结果,包括BioNano的contig与NGS的scaffold长度、个数以及总量;第四步,根据BioNano的contig与NGS的scaffold之间的网络拓扑关系,分类分析组装出的新的contig长度与scaffold长度;其中,第四步分类分析是指采用无向拓扑图显示两种方法中参与比对contig的大小与网络关系,BioNano的contig与NGS的scaffold按照一一对应、一对多、多对一的关系进行分类分析;一一对应,计算组装的contig长度;一对多,计算组装的scaffold长度;并且,所述的一一对应,计算组装的contig具体分为四类:i)BioNano的contig片段包含在NGS的scaffold中,表明组装出来的contig长度没有NGS的scaffold长度长;故此时gap为0,组装的contig记为NGS的scaffold长度Contig_length,NGS的scaffold长度为QLContig_length=QL;ii)NGS的scaffold片段包含在BioNano的contig中,说明两个酶切位点之间的距离,也就是记录的contig之间存在gap,则计算gap长度;假设两个酶切位点分别为RS、RE,记录的contig长度为RL,则gap长度,记为Gap_size,则Gap_size=RS+RL‑RE;iii)BioNano的contig长度与NGS的scaffold长度相等,此时gap为0,定义此时组装的contig长度记为Contig_length为两者的平均值,假设NGS的scaffold起始和结束位置分别为QS、QE,长度为QL,则有RE‑RS‑RL=QE‑QS‑QL,Contig_length=(RL+QL)/2;iiii)BioNano的contig长度与NGS的scaffold分为正方向比对与负方向比对,分别用“+”与“‑”区分;正方向比对,此时组装的contig长度Contig_length为Contig_length=RL‑RE+QE或者Contig_length=RS+QL‑QSGap为RL‑RE或者RS;BioNano的contig长度与NGS的scaffold负方向比对,此时,组装的contig长度Contig_length为Contig_length=RL‑RE+QL‑QEContig_length=RS+QSGap为QE或者QL‑QS;所述的一对多,计算组装的scaffold长度是指提取一条BioNano的contig与两条NGS的scaffold比对上的contig,并按照拼接方向,分为“++”、“+‑”、“‑+”、“‑‑”4种情况组装出更长的contig,即为组装的scaffold;当拼接方向为“++”时,定义此时组装的scaffold长度scaffold_length如下:scaffold_length=(RS2‑RS1)+QS1+(QL2‑QS2);当拼接方向为“+‑”时,定义此时组装的scaffold长度scaffold_length如下:scaffold_length=(RS2‑RS1)+QS1+(QS2‑QE2);当拼接方向为“‑+”时,组装的scaffold长度scaffold_length为:scaffold_length=(RS2‑RS1)+(QL1‑QS1)+(QL2‑QS2);当拼接方向为“‑‑”时,组装的scaffold长度scaffold_length为:scaffold_length=(RS2‑RS1)+(QL2‑QS1)+QE2;RS1:BioNano方法中contig1的开始位置;RE1:BioNano方法中contig1的末端位置;RS2:BioNano方法中contig2的开始位置;RE2:BioNano方法中contig2的末端位置;QS1:NGS方法中contig1的开始位置;QS2:NGS方法中contig1的末端位置;QE1:NGS方法中contig2的开始位置;QE2:NGS方法中contig2的末端位置;QL1:NGS方法中contig1的长度;QL2:NGS方法中contig2的长度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晶能生物技术(上海)有限公司,未经晶能生物技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610211082.3/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top