[发明专利]肠道菌群宏基因组数据库构建方法、分析方法及装置在审
申请号: | 201911221092.5 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111261231A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 许冬瑾;周勇;罗文;廖和睿 | 申请(专利权)人: | 康美华大基因技术有限公司 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G16B20/00 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 王毅 |
地址: | 518000 广东省深圳市宝安区西*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 肠道 宏基 数据库 构建 方法 分析 装置 | ||
1.一种肠道菌群宏基因组数据库构建方法,其特征在于,包括如下步骤:
获取步骤:获取人类肠道菌群宏基因组的初始数据资源,所述初始数据资源包括微生物宏基因组数据和宿主表型数据;
预处理步骤:对获取到的初始数据资源进行预处理,所述预处理包括表型信息整理和质控、丰度数据获取;
存储步骤:依照设置的录入格式将处理后的数据进行存储以得到宏基因数据库。
2.如权利要求1所述的一种肠道菌群宏基因组数据库构建方法,其特征在于,所述获取步骤具体包括以下子步骤:
根据关键词以检测相关文献资源以形成对应的文献列表,所述关键词为人类肠道微生物;
根据文献列表中的每篇文献结合生物医药数据库的搜索接口以获取与文献对应的公开的人类肠道微生物宏基因组的初始数据资源,所述初始数据资源包括原始SRA数据和与其对应的表型数据。
根据预处理步骤处理初始数据资源,所述的预处理步骤包括将不同表头的表型数据合并成具有统一表头信息的表型信息表,并将从NCBI下载的SRA数据转换成为所述数据存储所需的质控数据和丰度数据格式。
3.如权利要求2所述的一种肠道菌群宏基因组数据库构建方法,其特征在于,所述将SRA数据转换成为所述数据存储所需的质控数据和丰度数据格式具体为:
通过开源软件FastqDump将SRA数据转换成为Fastq数据;
对得到的Fastq数据通过开源流程Biobakery进行处理,其使用内置开源软件kneaddata对所述Fastq数据进行数据过滤与质量控制以获得质控后Fastq数据和对应数据质控信息,所述数据过滤与质量控制包括去除质量数据、宿主数据以及去除接头;
通过内置开源软件metaphlan2对所述质控后Fastq数据进行物种丰度计算,所述物种包括真菌,古菌,病毒,细菌,所述物种的分类包括界、门、纲、目、科、属、种共七个不同的分类层面计算,以获得最终数据存储单元所需的“种”层面物种丰度信息,所述的丰度信息是指根据样本所包含物种进行了归一化的相对丰度数据;
通过内置开源软件Humann2对所述质控后Fastq数据进行功能丰度计算,所述功能丰富计算包括基因家族和代谢通路两个不同层面计算,所述基因家族是指是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,所述代谢通路是指在生物化学中,是一连串在细胞内发生的化学反应,并由酶所催化,形成使用或储存的代谢物,或引发另一个代谢途径。
4.如权利要求2所述的一种肠道菌群宏基因组数据库构建方法,其特征在于,所述预处理步骤还包括:对获取到的初始数据资源进行预处理以得到样本相似性信息表;所述样本相似性表通过如下步骤获取得到:
获得质控后的Fastq数据;
通过开源软件Mash对所述Fastq数据进行距离计算,获得某一样本与所有样本之间的距离矩阵,根据距离矩阵中的样本距离获得某一样本最相似的前100样本,保留其相似排名以及相似距离;
所述样本相似性可通过样本相似距离来评估,其计算公式如下:
其中k表示kmer的k值,j表示两个序列集合之间的Jaccard指数,D(k,j)表示kmer值为k,Jaccard指数为j的两个序列集合的样本相似距离;
所述的Jaccard指数的计算公式为:
其中j表示两个序列集合之间的Jaccard指数,ω表示两个序列集合的保守kmer频数,n表示两个序列集合的平均集合大小。
5.如权利要求1所述的一种肠道菌群宏基因组数据库构建方法,其特征在于,在存储步骤之后还包括数据库更新步骤,所述数据库更新步骤包括以下子步骤:
接收人类肠道菌群宏基因组的更新数据,包括:质控后的Fastq数据、样本表型数据、样本物种丰度数据、样本基因家族丰度数据、样本代谢通路丰度数据、样本相似性数据;
在接收所述更新数据时,对所述更新数据进行转换,所述转换表示文本数据转换为数据库中的字段值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于康美华大基因技术有限公司,未经康美华大基因技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911221092.5/1.html,转载请声明来源钻瓜专利网。