[发明专利]基于元基因组学的未知病原快速鉴定系统及分析方法有效
申请号: | 201110452666.7 | 申请日: | 2011-12-29 |
公开(公告)号: | CN103186716B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 韦朝春;蔡锴晔;宣黎明;贾鹏;刘雷;李亦学 | 申请(专利权)人: | 上海生物信息技术研究中心 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 上海光华专利事务所31219 | 代理人: | 冯珺 |
地址: | 200235 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 基因组 未知 病原 快速 鉴定 系统 分析 方法 | ||
技术领域
本发明涉及未知病原的分析,具体涉及一种基于元基因组学的未知病原分析系统及分析方法。
背景技术
由于气候、生态和人类行为等各方面因素的变化,出现了许多未知的病原体引发的传染病,例如尼帕病毒、SARS等。甚至在常见的传染病爆发时,仍有相当一部分病人无法确定病原。因此,快速检测未知病原的平台显得尤为重要,它能在传染病爆发的早期帮助确定或者是缩小可疑病原微生物的范围,以便更迅速做出反应,部署有针对性的防控措施,减少疾病流行对社会和经济造成的损失。
相对于目前已有的病原检测方法,用元基因组学的方法来推断微生物的组成,显著的特点是不依赖于培养技术和对微生物的先验知识。在自然界中,不能培养的微生物占绝大多数,因此元基因组学方法有希望揭示真实的微生物群落组成和各微生物之间相互作用。随着核酸测序技术和生物信息学的发展,用基于元基因组学的方法来快速鉴定样本的物种组成的技术逐渐成熟,使得基于元基因组学的未知病原寻找系统成为可能。
关于Meta-All分析系统,主要包括以下功能单元,测序数据的两种处理方式之一Meta-All,该方式是基于测序序列与已知基因组序列比对得到结果;测序数据的另一种处理方式Meta-BinG,该方式是分析测序数据的K-mer组成得到结果,基于比对的方式针对常见的两种不同测序技术应用不同的序列比对程序,solexa序列用Bowtie做比对,基于比对的方式针对常见的两种不同测序技术应用不同的序列比对程序,454序列用Blat做比对,比对结果修正单元,若为16s rRNA则基于拷贝数进行修正,若为全基因组WGS则基于基因组大小进行修正,结果统计输出单元,在门、纲、目、科、属、种这6个层次输出相应的物种组成表和饼图
发明内容
本发明的第一目的是提供一种基于元基因组的未知病原快速鉴定系统。
本发明的第二目的是提供一种基于元基因组的未知病原快速鉴定系统的分析方法。
一种基于元基因组的未知病原快速鉴定系统,其包括:
质量控制系统:对测序数据进行质量分析,把测序质量不合要求的部分去除;
Meta-All分析系统:本系统的主体部分;
NeSSM第二代测序模拟系统:独立部分,可以产生模拟的测序数据;
数据库更新组件:自动更新Meta-All分析系统需要用到的数据库资源;
病原组成比较分析单元:根据物种组成表,比较不同来源的元基因组病原组成的异同,找出与疾病相关性高的病原。
进一步地,所述数据库更新组件包括以下单元:
下载单元:查询公共数据库里新增和修改过的数据,并下载到本地;
数据处理单元:把已下载的数据根据类型整理并转化为本地数据库需要的格式;
数据记录单元:把格式化后的数据写入对应的本地数据库,把更新时间记入日志;
更新控制单元:检查日志文件,判断是否需要下载数据更新本地数据库。
一种使用如所述的基于元基因组的未知病原快速鉴定系统的未知病原分析方法,所述方法包括如下步骤:
首先,利用数据库更新组件进行以下数据更新步骤
通过下载单元,查询公共数据库里新增和修改过的数据,并下载到本地;
通过数据处理单元,把已下载的数据根据类型整理并转化为本地数据库需要的格式;
通过数据记录单元,把格式化后的数据写入对应的本地数据库,把更新时间记入日志;
通过更新控制单元,检查日志文件,判断是否需要下载数据更新本地数据库。
然后,进行以下分析步骤
步骤I:质量控制;
用测序质量值Q表示某个碱基测序质量,若该碱基的错误概率p,p为(0,1)之间的一个实数,则Q为p的一个整数映射,使用Q值作为质量控制的依据,设定碱基水平和序列水平的质量控制的阈值Q均为20,所对应的碱基错误概率p大约为0.01;
步骤II:物种分析;
经过质量控制的序列即可进行下一步的物种分析,这里的物种分析基于序列相似性的分析;其中包括:
对比:采用了Bowtie作为Meta-All的比对软件,Bowtie采用了Burrows-Wheeler转换方法来处理基因组序列,可以快速地将短序列比对到基因组上;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海生物信息技术研究中心,未经上海生物信息技术研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110452666.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:保护.NET软件安全的方法和设备
- 下一篇:一种海量数据存储及查询方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用