[发明专利]一种病原微生物基因组快速分析方法及系统有效
申请号: | 201510932914.6 | 申请日: | 2015-12-15 |
公开(公告)号: | CN106886689B | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 阮陟;陈欢;冯晔;单杲 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F19/22 | 分类号: | G06F19/22;G06F19/28 |
代理公司: | 北京市盈科律师事务所 11344 | 代理人: | 刘立国 |
地址: | 310003*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病原微生物 基因组 快速 分析 方法 系统 | ||
1.一种病原微生物基因组快速分析方法,其特征在于,包括以下步骤:
S1:获取细菌菌株的基因组序列数据与临床资料信息并建立BWGT数据库;
S2:根据BWGT数据库确定菌株基因组序列所对应的物种及其相应的MLST分型方案,并构建MLST数据库;
S3:根据物种与MLST分型方案在MLST数据库中通过BLAST序列比对分析得到基于菌株基因组序列的序列型及其所属克隆复合体信息,并设定具体的参考菌株;
所述BWGT数据库中设置有细菌菌株的参考菌株的相关信息;
根据基因组序列信息确定基因组序列的分型组;所述基因组序列中的等位基因型超过预设数量的判定为一个分型组;
从分型组中确定克隆复合体;所述分型组中的序列型达到预设个数的判定为一个克隆复合体;
将所述序列型通过BURST算法绘制出网络结构的辐射状图,具体过程如下:
限定7个等位基因型中有5个或5个以上相同的属于一个分型组,并构建进化关系网络图;
如果1个分型组中包含4个或4个以上序列型,则为1个克隆复合体;
对于每个克隆复合体,通过BURST算法计算出一个在进化关系上被认为是祖先的序列型,作为起源,并将该祖先的序列型作为该克隆复合体的名称;
将克隆复合体中的其他序列型表示从祖先的基础上进化而来,二者之间通过1条直线相连,直线的长度则表示亲缘关系的远近;
在每个克隆复合体中选取一株细菌作为参考菌株;
S4:获取菌株的基因组SNP序列与亲缘关系数据;
S5:绘制基于细菌基因组SNP序列的系统发生树;
还包括以下步骤:
S6:将菌株临床资料、参考菌株、基因组SNP序列和系统发生树信息存储到BWGT数据库;
所述BWGT数据库至少包括以下信息:
依照不同物种进行划分的病原微生物基因组序列及其编码蛋白与结构域的注释;各物种对应的多位点序列分型方案、等位基因序列、序列型与等位基因型对应关系表;菌株临床资料信息及其与公共数据库的链接;用于基因组分型的参考菌株信息;与参考菌株基因组序列进行BLAST比对与多序列联配后,生成的基因组SNP数据;用户提交的菌株临床信息及其基因组SNP数据。
2.根据权利要求1所述的病原微生物基因组快速分析方法,其特征在于,所述BWGT数据库中的菌株基因组序列是从公共数据库中获取的基因组数据,并将基因组数据进行去冗余处理,后按照病原体的不同物种进行分类得到的菌株基因组序列;
所述BWGT数据库中的MLST分型方案数据是根据不同物种从公共数据库中提取不同MLST分型数据集,并存入数据库。
3.根据权利要求2所述的病原微生物基因组快速分析方法,其特征在于,所述序列型与等位基因型对应关系表设置有八列,分别代表序列型与七个等位基因的序列型数值;
所述MLST数据库中的MLST分型方案所对应的等位基因序列采用如下的序列格式:该序列格式以FASTA格式为基础,在每行“>”后输入等位基因名与等位基因型,中间用“-”分隔;
所述BWGT数据库包括公共数据库资源和菌株临床资料信息;
所述公共数据库资源包括NCBI、EBI、PATRIC公共数据库资源和PubMLST公共数据库资源;
所述菌株临床资料信息通过文本挖掘技术从网页与文献中提取菌株的临床资料整合数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510932914.6/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用