[发明专利]一种基因变异数据分布式存储方法及系统有效
申请号: | 201711267170.6 | 申请日: | 2017-12-05 |
公开(公告)号: | CN108563923B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 董守斌;王博;董守玲;袁华 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G16C20/90 | 分类号: | G16C20/90;G16C20/70 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 变异 数据 分布式 存储 方法 系统 | ||
本发明公开了一种基因变异数据分布式存储方法及系统,该方法包括分布式数据存储过程、分布式位图索引创建过程和分布式查询检索过程;该系统包括分布式列式存储模块、分布式位图索引模块和查询检索模块。本发明通过采用新的列式存储引擎kudu进行数据分布式存储,并针对各样本列建立分布式局部位图索引,有效解决现有的HDFS方案随机数据访问性能低的问题;解决HBase方案批量分析性能不佳的问题;简化存储架构模型;解决基因型查询工具对多个工具依赖的限制问题;同时本发明通过分布式的局部位图索引方案,实现了高并发,并提高了可拓展性。
技术领域
本发明涉及大数据存储领域,尤其是指一种基于列式存储和位图索引的基因变异数据分布式存储方法及系统。
背景技术
随着基因测序技术的长足发展以及人们对个性化医疗的迫切需要,全基因组关联分析成为当下越来越热门的一个研究领域。全基因组关联分析依赖于大规模的基因变异检测数据,这些数据属于典型的大数据范畴,不同存储架构的数据组织方式、索引方式、拓展方式等会对数据的检索分析产生很大的影响。全基因组关联分析场景既需要低时延的随机读取性能,又需要高效的批量读写性能,不合适的存储架构可能会导致效率低下、模型复杂、可拓展性低等问题,需要设计合适的存储架构来提高全基因组关联分析的效率。
基于Hadoop分布式文件系统(HDFS)的存储方案将变异检测文件(VCF文件)以Block块的形式存储在多个节点上,可扩展性强,可以高效地响应批量分析任务,但是它不能提供低延迟的随机数据访问,也无法提供数据更新操作。基于HBase的存储方案采用键值对的形式存储VCF文件,HBase是一个分布式数据库,可以方便的拓展到多个节点上,基于HBase可以实现低延迟的随机读写,但是因为HBase是列簇式存储,且存储的是键值对,它的scan开销比较大,无法实现高效的批量分析操作。基于HDFS+HBase的混合架构可以实现低延迟的随机读写及高效的批量分析,但是这种架构的模型复杂,数据维护成本大,且数据从生成到能够被批量分析的数据流延迟大。此外,还有一些基因型查询工具,如gqt,它在VCF文件的基础上创建位图索引来加速检索,但是这种工具仅能完成场景需要的部分功能,更复杂的查询需要组合多个工具,而且这些工具多是单节点处理的,可拓展性差。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于列式存储和位图索引的基因变异数据分布式存储方法及系统,通过采用新的列式存储引擎kudu进行数据分布式存储,并针对各样本列建立分布式局部位图索引,有效解决现有的HDFS方案随机数据访问性能低的问题;解决HBase方案批量分析性能不佳的问题;简化存储架构模型;解决基因型查询工具对多个工具依赖的限制问题;同时本发明通过分布式的局部位图索引方案,实现了高并发,并提高了可拓展性。
为实现上述目的,本发明所提供的技术方案为:
一种基因变异数据分布式存储方法,包括分布式数据存储过程、分布式位图索引创建过程和分布式查询检索过程;
所述分布式数据存储过程包括以下步骤:
S1、对VCF文件进行预处理,将VCF头部切除,将VCF文件纵向切分成元数据信息和样本基因型信息两部分,并将样本基因型数据进一步纵向切分成所需大小的数据集;
S2、对步骤S1中的各份数据,在列式存储kudu中创建对应的元数据表及样本表,根据VCF文件中的表头信息,指定各表的列名、列属性、主键列,并采用键值对保存样本与样本所属表格的对应关系;
S3、为步骤S2中各个表指定统一的分区方式,即将表水平切分成多个tablet 分片;
S4、将步骤S1预处理后的数据加载到前述步骤所创建的kudu表格中;
所述分布式位图索引创建过程包括以下步骤:
S5、扫描kudu中样本表各数据列,统计各列的属性基数并记录属性值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711267170.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置