[发明专利]注释数据库索引结构、快速注释遗传变异的方法及系统有效
申请号: | 201910031889.2 | 申请日: | 2019-01-14 |
公开(公告)号: | CN109712674B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 李俊;黄丹丹;王思发 | 申请(专利权)人: | 深圳市泰尔迪恩生物信息科技有限公司 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G06F16/13;G06F16/188 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 向霞 |
地址: | 518000 广东省深圳市龙华区龙华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注释 数据库 索引 结构 快速 遗传 变异 方法 系统 | ||
1.一种基因组功能注释数据库索引结构,其特征在于,所述索引结构包括基于注释数据库的一级索引文件、基于一级索引文件的二级索引文件;所述一级索引文件由多个文件块组成,每个文件块由头部和主体组成,主体由多行压缩数据组成,每个文件块对应注释数据库里的一个压缩块;所述二级索引文件由多行数据组成,每行数据存储一级索引文件中一个文件块主体数据的位置区间以及能直接寻址该文件块第一条数据的64位虚拟文件地址;
创建所述一级索引文件的方法包括创建文件块的方法,创建一个文件块的方法包括以下步骤:
获取注释数据库的一个压缩块,提取压缩块里全部数据的位置信息和64位虚拟文件地址并拆分成高48位压缩块地址和低16位地址偏移;
创建一级索引文件块的头部,在头部写入高48位压缩块地址、所述压缩块内数据低16位地址偏移的平均值和所述压缩块内第一条数据的染色体编号、起始位置和终止位置;
创建一级索引文件块的主体,计算所述压缩块内全部数据位置区间信息的差值和低16位地址偏移的差值并由位编码技术压缩后写入文件块主体;
计算所述压缩块内全部数据位置区间信息的差值包括计算第N数据和第N-1条数据起始位置的差值、第N条数据自身终止位置和起始位置的差值,其中,N为整数且N大于1;计算所述压缩块内全部数据低16位地址偏移的差值包括计算每一条数据与所述压缩块内数据低16位地址偏移平均值的差值;
所述位编码技术采用8位存储信息,其中,第一位表示符号位;第二位到第四位表示存储第N条数据和第N-1条数据起始位置的差值信息;第五位到第六位表示存储第N条数据自身终止位置和起始位置的差值信息;第七位表示第N条数据的低16位地址偏移差值的符号为正号或负号;第八位表示第N条数据的低16位地址偏移的差值的范围;其中,N为整数且N大于1;
创建所述二级索引文件的方法包括创建数据的方法,创建一条数据的方法包括以下步骤:对比一级索引文件块主体中全部数据位置区间的起始位置,得到最小值;对比一级索引文件块主体中全部数据位置区间的终止位置,得到最大值;存储所述最小值、最大值和文件块第一条数据的64位虚拟文件地址。
2.如权利要求1所述的索引结构,其特征在于,注释数据库的一个压缩块内所有数据的高48位压缩块地址都是相同的,将数据的64位虚拟文件地址拆分成高48位压缩块地址和低16位地址偏移,将高48位压缩块地址写入文件块头部,每条数据只保留低16位地址偏移。
3.一种快速注释遗传变异的方法,其特征在于,包括:
S21:获取注释数据库文件;构建注释数据库的索引结构,所述索引结构包括一级索引文件和二级索引文件,所述索引结构如权利要求1-2任一项所述;
S22:获取查询文件,获取分配的线程数,根据所分配的线程数平均拆分待查询文件,所述查询文件包含多条查询数据;
S23:每个线程分别从拆分后的查询文件中读取一条查询数据;
S24:每个线程分别根据查询数据的染色体编号,读取二级索引文件中所述染色体编号对应的二级索引数据到内存;
S25:每个线程分别比对匹配一条二级索引数据与查询数据;若匹配成功,则一级索引文件根据二级索引数据中所存的64位虚拟文件地址定位到相应的文件块,再将查询数据与所述文件块主体中的数据进行逐行比对匹配,若匹配成功,则计算文件块主体中匹配成功数据的64位虚拟文件地址,根据地址去注释数据库提取注释数据,返回所述注释数据对查询数据进行注释;若匹配失败,则一级索引文件跳过二级索引数据对应的文件块;
S26:每个线程分别重复执行步骤S25,直到二级索引数据的起始位置大于查询数据的终止位置;
S27:重复执行步骤S23-S26,直到查询文件的数据注释完毕或二级索引数据读取完毕。
4.如权利要求3所述的方法,其特征在于,在所述步骤S25中,计算文件块主体中匹配成功数据的64位虚拟文件地址的具体方法包括:提取所述文件块主体中匹配成功的数据的低16位地址偏移差值;提取所述文件块头部中存储的块内数据低16位地址偏移的平均值和高48位压缩块地址;根据所述差值、平均值和块地址计算该数据的64位虚拟文件地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市泰尔迪恩生物信息科技有限公司,未经深圳市泰尔迪恩生物信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910031889.2/1.html,转载请声明来源钻瓜专利网。