[发明专利]优化的宏基因组纳米孔测序数据定量方法有效
申请号: | 202111629600.0 | 申请日: | 2021-12-28 |
公开(公告)号: | CN114300055B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 李珊;李振中;戴岩;张岩;李诗濛;任用 | 申请(专利权)人: | 江苏先声医学诊断有限公司;南京先声诊断技术有限公司;南京先声医学检验实验室有限公司 |
主分类号: | G16B40/30 | 分类号: | G16B40/30;G16B30/10;G16B30/20;G16B50/30;G16B20/40;G16B10/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210042 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 优化 宏基 纳米 序数 定量 方法 | ||
1.一种提高宏基因组数据的定量准确度的生信分析方法,其特征在于,包括如下步骤:
步骤1)序列生成;
步骤2)序列质控;
步骤3)降维聚类:获取reads的k-mer频数矩阵,基于频数特征矩阵对所有测序reads进行降维分群;
步骤4)组装:对每群所含reads单独进行组装,得到contigs;
步骤5)数据库比对:将组装后的contigs分别与数据库进行比对,基于比对结果进行contigs物种鉴定;
步骤6)序列比对:将步骤2)质控后序列比对到步骤4)组装后的contigs上,得到比对结果bam文件;
步骤7)BPKM统计:基于bam文件统计每个contig覆盖的碱基数,进行BPKM统计;
步骤8)基于步骤5)得到的contigs与物种对应关系,如果一个物种对应多个contigs,以所有contigs的BPKM均值作为该物种的最终定量结果;
所述BPKM为每百万bases中来自于某基因组每千碱基长度的bases数,定义公式如下:
其中,所述base数为contigs覆盖碱基数;所述测序总base数为质控后的reads所包含的所有碱基数;
所述测序数据为四代纳米孔测序数据;
所述步骤1)序列生成为:测序平台产生的原始信号通过basecalling,得到的fastq格式的序列信息;
所述步骤2)序列质控为:统计序列的长度和质量值,对于纳米孔长读长数据,过滤低质量和长度过短的序列,同时去除接头序列;质控后进一步包括序列矫正步骤:过滤后的序列使用CONSENT软件进行碱基自校正。
2.权利要求1所述提高宏基因组数据的定量准确度的生信分析方法,其特征在于:
所述步骤5)中的比对为blast比对,数据库为NCBI NT数据库。
3.权利要求1-2任一所述提高宏基因组数据的定量准确度的生信分析方法,其特征在于,所述步骤3)中k-mer频数矩阵为5-mer频数矩阵;
所述步骤3)降维聚类是采用umap降维处理。
4.权利要求1-2任一所述提高宏基因组数据的定量准确度的生信分析方法,其特征在于,所述步骤4)中所述组装为使用Canu对于每个cluster的reads单独进行组装;还包括基于Medaka对组装结果进行纠错。
5.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-4任一项所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏先声医学诊断有限公司;南京先声诊断技术有限公司;南京先声医学检验实验室有限公司,未经江苏先声医学诊断有限公司;南京先声诊断技术有限公司;南京先声医学检验实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111629600.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:清洗设备
- 下一篇:一种调制方法、装置,解调方法和存储介质