[发明专利]注释数据库索引结构、快速注释遗传变异的方法及系统有效
申请号: | 201910031889.2 | 申请日: | 2019-01-14 |
公开(公告)号: | CN109712674B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 李俊;黄丹丹;王思发 | 申请(专利权)人: | 深圳市泰尔迪恩生物信息科技有限公司 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G06F16/13;G06F16/188 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 向霞 |
地址: | 518000 广东省深圳市龙华区龙华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注释 数据库 索引 结构 快速 遗传 变异 方法 系统 | ||
本发明提供了一种基因组功能注释数据库的索引结构、快速注释遗传变异的方法及系统。所述索引结构包括基于注释数据库的一级索引文件、基于一级索引文件的二级索引文件。一级索引文件包括多个文件块,每个文件块由头部和主体组成,主体由多行压缩数据组成,每个文件块对应注释数据库的一个压缩块。二级索引文件由多行数据组成,每行数据存储一级索引文件中一个文件块主体数据的位置区间以及能直接寻址该文件块的64位虚拟文件地址。注释方法通过扫描两级索引文件来找到结果所在数据行的文件地址,再根据文件地址定位注释数据库提取注释信息对遗传变异进行注释,比直接扫描注释数据库极大地减少了磁盘读操作,提升查询速度。
技术领域
本发明涉及生物信息学技术领域,具体涉及一种基因组功能注释数据库的索引结构和快速注释遗传变异的方法及系统。
背景技术
基因组功能注释是利用生物信息学方法和工具,对基因组所有基因或非编码调控元件的生物学功能进行注释,是当前功能基因组学研究的一个热点。随着高通量测序技术的普及,目前已经产生并积累了海量的基因组注释数据库,数据库的规模正在以接近指数方式增长,平均不到9个月就增加一倍。另外,个体化医学的发展也推动了基因组遗传位点的功能注释在精准医疗上的应用,数据查询已经逐渐接近全基因组规模,例如对个体基因组数百万遗传变异的解读将成为基因检测常规任务。
一个最简单的基因组注释任务可以抽象成先从数据库中获得所有与查询区间(指特定基因组染色体上的一段或一个位点)相关的信息行(指落在查询染色体位置内或相交的所有信息),再从获得的信息行中提取需要的注释项。现有的基因组注释算法工具及产品主要采用两种不同的策略进行基因组注释数据库的检索,包括采用独立的随机定位访问(例如Tabix,VEP和GIGGLE),或采用逐行扫描方法扫描注释数据库文件(例如BEDTools,BCFTools和vcfanno)。然而,这些已有算法在面对大规模查询或注释数据库文件的时候由于计算效率低、对数据库规模的扩展支持较差等原因已经无法满足大规模全基因组水平的应用需求。例如:面对一个目前常用的注释潜在致病性突变的遗传位点注解数据库Combined Annotation Dependent Depletion(CADD)中90亿条注释信息(压缩后约300GB),如要从CADD数据库中提取信息对个体基因组(大约500万条遗传变异)进行注释,现有的流行算法需要十几到上百个小时才能完成,耗用时间长。同时现有的工具绝大部分都不支持多线程,容易造成系统资源的浪费。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种基因组功能注释数据库的索引结构;所述索引结构包括基于注释数据库的一级索引文件、基于一级索引文件的二级索引文件,两级索引文件的大小合计约为注释数据库的几十分之一到上百分之一,通过扫描两级索引文件来找到结果所在数据行的文件地址,再根据文件地址定位注释数据库提取注释信息对遗传变异进行注释,比直接扫描注释数据库极大地减少了磁盘读操作,提升查询速度。
本发明实施例还提供一种快速注释遗传变异的方法及系统,所述方法基于所述索引结构。所述方法中的逐行扫描过程仅依赖于所述索引结构中的一级索引文件,而不依赖于注释数据库,极大地减少了磁盘读操作和扫描时间;此外,结合所述索引结构中的二级索引文件和随机定位策略避免对无关联的一级索引文件块的扫描,可以再次节省扫描时间,大幅提升查询速度。
第一方面,本发明实施例提供的一种基因组功能注释数据库的索引结构,包括基于注释数据库的一级索引文件、基于一级索引文件的二级索引文件;所述一级索引文件由多个文件块组成,每个文件块由头部和主体组成,主体由多行压缩数据组成,每个文件块对应注释数据库里的一个压缩块;所述二级索引文件由多行数据组成,每行数据存储一级索引文件中一个文件块主体数据的位置区间以及能直接寻址该文件块第一条数据的64位虚拟文件地址。
进一步地,创建所述一级索引文件的方法包括创建文件块的方法,创建一个文件块的方法包括以下步骤:
获取注释数据库的一个压缩块,提取压缩块里全部数据的位置信息和64位虚拟文件地址并拆分成高48位压缩块地址和低16位地址偏移;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市泰尔迪恩生物信息科技有限公司,未经深圳市泰尔迪恩生物信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910031889.2/2.html,转载请声明来源钻瓜专利网。