[发明专利]一种病原微生物鉴定方法有效
申请号: | 202210344311.4 | 申请日: | 2022-04-02 |
公开(公告)号: | CN114496089B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 王辉;郭一凡;孙世俊;尹玉瑶 | 申请(专利权)人: | 北京大学人民医院 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B40/00 |
代理公司: | 北京领创律师事务所 11778 | 代理人: | 沈斌;习文峰 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病原微生物 鉴定 方法 | ||
本发明提供一种微生物鉴定方法,所述方法通过对测序数据进行数据获取、数据过滤、数据聚类、序列选取、数据比对、物种比对和多重比对结果分析等步骤,实现缩短微生物鉴定分析时间,同时保证鉴定准确性。
技术领域
本发明属于生信分析领域,具体涉及一种病原微生物鉴定方法。
背景技术
宏基因组学是由Handelman最先提出的一种直接对微生物群体中包含的全部基因组信息进行研究的手段。之后,Kevin等对Metagenomics进行了定义,即“绕过对微生物个体进行分离培养,应用基因组学技术对自然环境中的微生物群落进行研究的学科”。它规避了对样品的微生物进行分离培养,提供了一种对不可分离培养的微生物进行研究的路径,更真实的反应了样本中微生物的组成。
在危急重症感染中,患者往往因为遗传性疾病,肿瘤,营养不良,器官移植,药物等因素导致免疫缺陷,除了遭受普通感染外,尤其容易受到机会性感染,即条件致病菌引起的感染。这类感染涉及的微生物种类复杂,不能根据经验提前预判,常规检测方法无法覆盖,相比之下宏基因组可以报告所有已知基因组序列的病原体,为危急和疑难感染患者的临床诊断提供了行之有效的技术手段。
大多数宏基因组病原鉴定的策略是与数据库比对,大量的算法和工具均可以用于这个场景。如blast,bowtie2,minimap2等比对软件,通过比对结果可以找出每条序列与数据库中相似性以此来推测样本中的病原。在病原鉴定的整个生信分析中,分析的时效性和准确性是非常关键的,能够快速,准确地鉴定出病原可以有效地帮助医生对患者进行治疗。传统比对的算法准确度是非常高的,但将百万条的reads与上百G的数据库比对对计算资源的消耗太大分析时间太长。
虽然现有的比对软件通过与数据库比对可以达到鉴定病原的目的,然而,宏基因组数据量和比对数据库是非常大的,如果直接将其与数据库进行比对是非常耗时的,在比对前采用UMAP算法将测序数据进行聚类筛选代表性序列以减少参与后续比对的reads数目,然后计算数据库序列与代表性序列的距离值以筛选后续参与比对的数据库序列,这样可以大大减少比对过程的时间同时保证鉴定的准确性。
有鉴于此,提出本发明。
发明内容
本发明的目的是提供一种病原微生物鉴定的方法,采用此方法可以快速、准确地鉴定出病原微生物。
具体提供如下技术方案。
本发明首先提供一种宏基因组微生物测序数据的比对方法,包括如下步骤
1)数据获取:获取高通量测序得到的基因组测序数据;
2)数据过滤:将上述得到的测序数据依次进行低质量过滤和宿主过滤,得到过滤后的序列;
3)数据聚类:将上述过滤后的序列进行聚类得到聚类结果;
4)代表性序列获取:基于所述聚类结果获取代表性序列;
5)数据库序列选取:用计算数据库中每条序列与上述代表性序列的距离值,依据距离值来筛选数据库中的序列;
6)物种比对:将步骤4)所选代表性序列与步骤5)中选取的数据库中的序列进行比对,并统计比对结果:当一序列唯一比对一个物种定义为该物种的唯一比对序列,当一序列比对至少两个物种定义为多重比对序列;
7)多重比对结果分析:对于每条多重比对序列,统计其与各个物种的核苷酸相似度,比较其与各个物种之间的核苷酸相似度值,优先将该多重比对序列分配到最大核苷酸相似度的物种,如果核苷酸相似度相等,舍弃该多重比对序列。
步骤1)中所述的测序数据是一代、二代、三代测序数据,优选的是三代测序数据;优选的为ONT测序数据。
进一步的,步骤3)中,所述聚类基于UMAP算法进行聚类,根据聚类结果将测序数据分成相应数目的cluster。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学人民医院,未经北京大学人民医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210344311.4/2.html,转载请声明来源钻瓜专利网。