[发明专利]基于KEGG数据库的注释方法、装置、设备和介质在审
申请号: | 202011210906.8 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112420130A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 黄龙;韩继臣;李丽翠 | 申请(专利权)人: | 上海美吉生物医药科技有限公司 |
主分类号: | G16B50/10 | 分类号: | G16B50/10;G16B30/10;G06F16/951 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李治东 |
地址: | 201321 上海市浦东新区中国(上海)*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 kegg 数据库 注释 方法 装置 设备 介质 | ||
1.一种基于KEGG数据库的注释方法,其特征在于,所述方法包括:
按一定频率从KEGG官方数据库下载或更新数据文件,并针对不同物种、及层级构建子数据库;
分别提取不同物种的关键信息并进行数据整理以得到对应各子数据库的统一格式的信息文件;
利用核酸序列同源性比对寻找同源ID,并根据所述信息文件进行数据注释;其中,针对不同物种对应的不同层级分别进行数据注释。
2.根据权利要求1所述的方法,其特征在于,所述数据文件包括:物种通路信息表、通路详情表、基因详情表、gene文件、kgml文件、compound文件、及model文件中任意一种或多种组合;
其中,所述通路详情表包含该通路中的KO号;所述基因详情表包含该基因的核酸序列和氨基酸序列。
3.根据权利要求2所述的方法,其特征在于,所述分别提取不同物种的关键信息包括以下任意一种或多种,包括:
1)根据需求使用python编程语言对所述数据文件中的目标信息进行提取;
2)依据下载完成后的数据文件中的物种通路信息表,解析各个通路的数据文件,以提取各个通路的关键信息、及对应的gene文件中的关键信息;
3)解析KEGG官方信息中未注释到确定通路的gene文件,以获取gene文件的关键信息、及序列信息。
4.根据权利要求2所述的方法,其特征在于,所述利用核酸序列同源性比对寻找同源ID,并根据所述信息文件进行数据注释,包括:
在数据注释过程中选择严格的控制参数对流程结果进行整理和读写;
其中,针对比对结果,根据E值选择最优的同源ID对作为同源geneID,以用于对目标序列进行注释;和/或,针对注释信息,给出不同层次和对象的文件输出;其中,分别针对KO号和geneID进行匹配信息的输出,同时还输出相应的统计信息、描述信息、及name信息。
5.根据权利要求2所述的方法,其特征在于,所述利用核酸序列同源性比对寻找同源ID,并根据所述信息文件进行数据注释,包括:
利用从KEGG官方数据库下载的数据文件中的kgml文件,通过python模块openCV生成并修改相应的通路图和目标格式;
和/或,对差异基因中上下调基因的边框分别进行颜色标识,以及对通路图中的边信息进行去冗余操作。
6.根据权利要求1所述的方法,其特征在于,所述按一定频率从KEGG官方数据库下载或更新数据文件,包括:
针对不同物种的使用和更新频率设置不同下载频率;其中,针对人、鼠模式物种每日进行下载与更新;针对真核、原核物种每月进行下载与更新。
7.根据权利要求1所述的方法,其特征在于,所述针对不同物种、及层级构建子数据库,包括:
从KEGG官方数据库获取不同物种已分类的子数据库;或,按照KEGG官方数据库中提供的物种分类方式,整合不同样品的序列数据,以形成物种特有的或不同分类界元的各个子数据库;
根据各所述子数据库中包含的物种列表或各物种应对不同的功能场景,利用精确靶向物种的方式对不同物种的子数据库,在允许范围内针对特定的多个层级进行整合和使用,以供提供不同的注释方式;
所述层级包括:纲、目、科、属、及种中任意一种或多种组合。
8.根据权利要求1所述的方法,其特征在于,所述利用核酸序列同源性比对寻找同源ID所采用的软件包括:diamond、blast、及bowti2中任意一种。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在数据注释完成后,提供必要的项目信息,并基于python编程语言实现自动分析,以得到KEGG注释报告;
和/或,引入SGE和SLURM两种HPC任务投递系统,以支持并行任务处理方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海美吉生物医药科技有限公司,未经上海美吉生物医药科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011210906.8/1.html,转载请声明来源钻瓜专利网。