[发明专利]宏基因组数据分析及特征菌筛选方法在审
申请号: | 202111246832.8 | 申请日: | 2021-10-26 |
公开(公告)号: | CN114023386A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 郑明权;侯晓帆;刘裕 | 申请(专利权)人: | 艾德范思(北京)医学检验实验室有限公司 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/00 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 关畅 |
地址: | 100095 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 宏基 数据 分析 特征 筛选 方法 | ||
本发明公开了宏基因组数据分析及特征菌筛选方法。本发明所要保护的一个技术方案是宏基因组测序数据分析和/或特征菌群鉴定方法。所述方法包括如下步骤:对所有待测样本的宏基因组原始数据进行预处理获得每个待测样本的高质量数据;对所述高质量数据进行微生物组组成分析获得所述每个待测样本的细菌的组成及相对丰度分布结果;对所述细菌的组成及相对丰度分布结果进行细菌谱构成比较得到所述每个待测样本的细菌谱构成结果;对所述细菌谱构成结果进行特征菌群分析,得到所述每个样本的特征菌群;对所述细菌谱构成结果进行特征菌群鉴定,得到所述待测样本之间的差异基因和特征菌群。
技术领域
本发明涉及生物信息技术领域,具体涉及宏基因组数据分析及特征菌筛选方法。
背景技术
无论是人类肠道还是母乳微生物,DNA测序技术的快速发展改变了人们对这类复杂环境中微生物群落组成和动态变化的认识。这些技术上的发展推动从临床研究到生物技术等科学领域微生物组研究数量激增。
很多与微生物研究相关的基本问题都来自于统计和数据分组设计问题,所以数据收集分类和分析方法的标准仍需要不断变化创新。复杂的微生物群落形成动态、多变的自然环境,包括人类肠道、母乳等。DNA测序技术和数据分析发展极大地推动了微生物组学物种鉴定、假阳性率控制等方面的研究。该方法从分子技术选择、数据分析方法以及综合多种组学数据集等不同方面,对如何实现最优的微生物组学研究进行创新。利用近期快速发展的机器学习(machine learning)算法随机森林(random forest)建立分类模型对传统的差异菌群分析做补充,将宏基因组学基本OTU聚类分析和数据多维度统计相结合,组成宏基因组数据特征菌筛选创新方法。
考虑到微生物组数据的特殊性,比如,属于组成数据(compositional data)、数据异质性(heterogeneous)高、稀疏性(sparse)强等特点,为充分利用这些生物学数据的所有信息,需要引入新的数据分析方法。基于分类学(taxa)信息的特征选取进行宿主表型预测,建立微生物组之间的关联关系、预测各种疾病状态、或者改善人类健康,这些都可能促进个体化医疗(personalized medicine)的发展。事实上,肠道微生物组、母乳微生物组等已成为个体化医疗不可或缺的一部分。它们不仅对健康和疾病的个体差异有显著性提示,而且代表了一种潜在的可改变因素,可通过个体化方式进行靶向治疗。而随机森林(randomforest)等机器学习(machine learning)方法可以通过适切模型的训练开发,为生物医学分析提供新的见解。
发明内容
本发明所要解决的技术问题是如何对宏基因组数据中的特征菌群进行鉴定筛选或如何对宏基因组数据进行分析。
为了解决上述技术问题,本发明首先提供了宏基因组测序数据分析和/或特征菌群鉴定(筛选)方法。所述方法可包括如下步骤:对所有待测样本的宏基因组原始数据进行预处理获得每个待测样本的高质量数据;对所述高质量数据进行微生物组组成分析获得所述每个待测样本的细菌的组成及相对丰度分布结果;对所述细菌的组成及相对丰度分布结果进行细菌谱构成比较得到所述每个待测样本的细菌谱构成结果;对所述细菌谱构成结果进行特征菌群分析,得到所述每个样本的特征菌群;对所述细菌谱构成结果进行特征菌群鉴定,得到所述待测样本之间的差异基因和特征菌群。
上文所述方法中,所述特征菌群鉴定的过程可包括:使用随机森林方法建立特征菌群分类模型,通过所述特征菌群分类模型获得所述待测样本分组间的特征菌群和差异基因。
上文所述方法中,所述使用随机森林方法建立特征菌群分类模型的过程可包括如下步骤:随机选取80%的所述待测样本作为训练集,20%的所述待测样本作为测试集,使用所述训练集构建所述特征菌群分类模型,使用所述测试集验证所述特征菌群分类模型;对所述特征菌群分类模型绘制ROC曲线,使用AUC值确定所述特征菌群分类模型的准确性。
上文所述方法中,所述特征菌群分析可包括α多样性分析和β多样性分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于艾德范思(北京)医学检验实验室有限公司,未经艾德范思(北京)医学检验实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111246832.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置