[发明专利]一种优化的kraken2算法及其在二代测序中的应用有效
申请号: | 202110804351.8 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113539369B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 张岩;李振中;任用;李诗濛;郭昊;梁相志;陈莉;戴岩;李珊;顾菊 | 申请(专利权)人: | 江苏先声医学诊断有限公司;江苏先声医疗器械有限公司;南京先声诊断技术有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210032 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 优化 kraken2 算法 及其 二代 中的 应用 | ||
1.一种生信分析方法,其特征在于,包括如下步骤:
1)序列比对:NGS测序数据使用kraken2进行序列比对,获得每条序列taxid-kmer结果;
2)基于taxonomy数据库建立taxid层级关系:根据步骤1)taxid kmer 结果关联taxonomy层级,根据定位规则重定位taxid;
3)计算每条序列kmer score:根据每条序列经过步骤2)重定位的taxid和步骤1)的taxid-kmer结果计算每条序列kmer score;
4)对比对结果进行整体计算:根据kmer score和taxonomy层级进行整体计算;
所述步骤3)中所述kmer score计算规则如下:
最终定位到科层级taxid以下的序列, kmer score = (科taxid-kmers + 属taxid-kmers + 种taxid-kmers + 亚型/血清型 taxid-kmers) /总kmers;
最终定位到科层级taxid以上的序列,kmer score为0。
2.权利要求1所述的生信分析方法,其特征在于,所述方法进一步包括:
5)物种taxid检测:根据4)的整体计算结果进行物种taxid检测。
3.权利要求1-2任一所述的生信分析方法,其特征在于,所述步骤2)中层级关系包括血清型/亚型、种、属、科的一种或多种。
4.权利要求1-2任一所述的生信分析方法,其特征在于,所述步骤2)中重定位规则包括:
通常情况下接受kraken2给出的taxid定位,以下情况进行重定位:
某条序列根据taxid-kmer结果获得唯一taxid且taxid低于种层级,则定位为该taxid所属的种层级taxid;
某条序列根据taxid-kmer结果获得超过2个taxid时,分3种情况:
所有taxid,关联到种层级上只出现1个,其他taxid属于该种的血清型/亚型、属、或科层级,则定位到该种层级taxid;
所有taxid,关联到种层级超过2个且属于同一属,则最终定位到属层级taxid;
所有taxid,关联到属层级超过2个且属于同一科,则最终定位到科层级taxid。
5.权利要求1-2任一所述的生信分析方法,其特征在于,所述步骤4)中整体计算包括:
a、设定一个过滤 cutoff阈值, 对每条序列根据kmer score进行过滤;
b、对a中经过过滤的序列,统计taxid的reads;
所述taxid的reads是一个样本出现的taxid的序列总数;
c、设定一个过滤阈值threshold,对b中定位到种层级的taxid进行过滤,计算其属相对比值,排除低于阈值的种层级taxid;
所述属相对比值为某个种层级taxid reads相对于同属reads最高的种层级taxidreads的比值。
6.权利要求5所述的生信分析方法,其特征在于,所述步骤4)中所述整体计算还包括:
d、 经c过滤的种层级taxid,若缺乏属分类,则计算科相对比值,排除低于过滤阈值threshold种层级taxid;
所述科相对比值为某个种层级taxid reads相对于同科reads最高的种层级taxidreads的比值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏先声医学诊断有限公司;江苏先声医疗器械有限公司;南京先声诊断技术有限公司,未经江苏先声医学诊断有限公司;江苏先声医疗器械有限公司;南京先声诊断技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110804351.8/1.html,转载请声明来源钻瓜专利网。