[发明专利]优化的宏基因组纳米孔测序数据定量方法有效

专利信息
申请号: 202111629600.0 申请日: 2021-12-28
公开(公告)号: CN114300055B 公开(公告)日: 2023-04-25
发明(设计)人: 李珊;李振中;戴岩;张岩;李诗濛;任用 申请(专利权)人: 江苏先声医学诊断有限公司;南京先声诊断技术有限公司;南京先声医学检验实验室有限公司
主分类号: G16B40/30 分类号: G16B40/30;G16B30/10;G16B30/20;G16B50/30;G16B20/40;G16B10/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 210042 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 优化 宏基 纳米 序数 定量 方法
【权利要求书】:

1.一种提高宏基因组数据的定量准确度的生信分析方法,其特征在于,包括如下步骤:

步骤1)序列生成;

步骤2)序列质控;

步骤3)降维聚类:获取reads的k-mer频数矩阵,基于频数特征矩阵对所有测序reads进行降维分群;

步骤4)组装:对每群所含reads单独进行组装,得到contigs;

步骤5)数据库比对:将组装后的contigs分别与数据库进行比对,基于比对结果进行contigs物种鉴定;

步骤6)序列比对:将步骤2)质控后序列比对到步骤4)组装后的contigs上,得到比对结果bam文件;

步骤7)BPKM统计:基于bam文件统计每个contig覆盖的碱基数,进行BPKM统计;

步骤8)基于步骤5)得到的contigs与物种对应关系,如果一个物种对应多个contigs,以所有contigs的BPKM均值作为该物种的最终定量结果;

所述BPKM为每百万bases中来自于某基因组每千碱基长度的bases数,定义公式如下:

其中,所述base数为contigs覆盖碱基数;所述测序总base数为质控后的reads所包含的所有碱基数;

所述测序数据为四代纳米孔测序数据;

所述步骤1)序列生成为:测序平台产生的原始信号通过basecalling,得到的fastq格式的序列信息;

所述步骤2)序列质控为:统计序列的长度和质量值,对于纳米孔长读长数据,过滤低质量和长度过短的序列,同时去除接头序列;质控后进一步包括序列矫正步骤:过滤后的序列使用CONSENT软件进行碱基自校正。

2.权利要求1所述提高宏基因组数据的定量准确度的生信分析方法,其特征在于:

所述步骤5)中的比对为blast比对,数据库为NCBI NT数据库。

3.权利要求1-2任一所述提高宏基因组数据的定量准确度的生信分析方法,其特征在于,所述步骤3)中k-mer频数矩阵为5-mer频数矩阵;

所述步骤3)降维聚类是采用umap降维处理。

4.权利要求1-2任一所述提高宏基因组数据的定量准确度的生信分析方法,其特征在于,所述步骤4)中所述组装为使用Canu对于每个cluster的reads单独进行组装;还包括基于Medaka对组装结果进行纠错。

5.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-4任一项所述方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏先声医学诊断有限公司;南京先声诊断技术有限公司;南京先声医学检验实验室有限公司,未经江苏先声医学诊断有限公司;南京先声诊断技术有限公司;南京先声医学检验实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111629600.0/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top