[发明专利]基于KEGG数据库的注释方法、装置、设备和介质在审
申请号: | 202011210906.8 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112420130A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 黄龙;韩继臣;李丽翠 | 申请(专利权)人: | 上海美吉生物医药科技有限公司 |
主分类号: | G16B50/10 | 分类号: | G16B50/10;G16B30/10;G06F16/951 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李治东 |
地址: | 201321 上海市浦东新区中国(上海)*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 kegg 数据库 注释 方法 装置 设备 介质 | ||
本申请提供的一种基于KEGG数据库的注释方法、装置、设备和介质,通过按一定频率从KEGG官方数据库下载或更新数据文件,并针对不同物种、及层级构建子数据库;分别提取不同物种的关键信息并进行数据整理以得到对应各子数据库的统一格式的信息文件;利用核酸序列同源性比对寻找同源ID,并根据所述信息文件进行数据注释;其中,针对不同物种对应的不同层级分别进行数据注释。本申请能确保数据文件下载完整和更新及时,数据提取准确和全面,比对结果准确和读取方便,以及确保项目注释效率高,耗资少。
技术领域
本发明涉及基因注释技术领域,特别是涉及一种基于KEGG数据库的注释方法、装置、设备和介质。
背景技术
基于高通量测序的数据分析,需要针对测序获得的基因进行相应的功能注释,以便在众多的基因中获取核心基因进行重点研究。迄今为止,基于注释的数据挖掘技术,在基础科研,疾病诊断,药物研发等方面发挥了重大作用。
当前生命科学领域,在各位业界大咖和学术泰斗的努力下,生物领域的众多优秀数据库向各位研究者开源。其中,KEGG数据库是了解高级功能和生物系统(如细胞、生物和生态系统)的权威数据库[1]。针对分子水平信息,尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。
然而,生命科学领域的研究成果日新月异,KEGG数据的各类注释信息,每天都在进行更新,学术界对数据库的使用带有不同程度的更新延后性,导致一个现象就是各类注释信息使用的是几个月以前甚至前几年的数据来进行基因的功能注释,可能导致研究者得到的科研结果存在一定的过时甚至错误,进而给科学研究带来不可估量的损失。
目前针对核酸序列的KEGG注释主要可以通过KOBAS[2]等软件或者KAAS[3]在线网站进行:其中两种方式对应的主要步骤、及缺点的对比如下表所示:
表1 KOBAS软件注释与KAAS网页注释的对比
基于学术界对KEGG数据库的使用存在不同程度更新延后性及使用问题,本申请的设计要求主要用于满足:1、数据库信息直接从KEGG数据库官方网站获取,保证数据的完整性。 2、利用爬虫对KEGG数据实现实时更新,保证数据的准确性。
参考文献:1.Minoru Kanehisa.The KEGG database.[J].Novartis FoundationSymposium, 2002,247(247):91.
2.XieC,MaoX,HuangJ,DingY,WuJ,DongS,KongL,GaoG,LiCY,WeiL.KOBAS 2.0:aweb server for annotation and identification of enriched pathwaysanddiseases.[J].Nucleic Acids Res,2011.
3.Moriya Y,Itoh M,Okuda S,Yoshizawa AC,Kanehisa M.KAAS:an automaticgenome annotation and pathway reconstruction server.[J].Nucleic AcidsRes.2007Jul;35.
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于KEGG数据库的注释方法、装置、设备和介质,以解决现有技术中的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海美吉生物医药科技有限公司,未经上海美吉生物医药科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011210906.8/2.html,转载请声明来源钻瓜专利网。