[发明专利]一种基因变异数据分布式存储方法及系统有效
申请号: | 201711267170.6 | 申请日: | 2017-12-05 |
公开(公告)号: | CN108563923B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 董守斌;王博;董守玲;袁华 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G16C20/90 | 分类号: | G16C20/90;G16C20/70 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基因变异数据分布式存储方法及系统,该方法包括分布式数据存储过程、分布式位图索引创建过程和分布式查询检索过程;该系统包括分布式列式存储模块、分布式位图索引模块和查询检索模块。本发明通过采用新的列式存储引擎kudu进行数据分布式存储,并针对各样本列建立分布式局部位图索引,有效解决现有的HDFS方案随机数据访问性能低的问题;解决HBase方案批量分析性能不佳的问题;简化存储架构模型;解决基因型查询工具对多个工具依赖的限制问题;同时本发明通过分布式的局部位图索引方案,实现了高并发,并提高了可拓展性。 | ||
搜索关键词: | 一种 基因 变异 数据 分布式 存储 方法 系统 | ||
【主权项】:
1.一种基因变异数据分布式存储方法,其特征在于:该方法包括分布式数据存储过程、分布式位图索引创建过程和分布式查询检索过程;所述分布式数据存储过程包括以下步骤:S1、对VCF文件进行预处理,将VCF头部切除,将VCF文件纵向切分成元数据信息和样本基因型信息两部分,并将样本基因型数据进一步纵向切分成所需大小的数据集;S2、对步骤S1中的各份数据,在列式存储kudu中创建对应的元数据表及样本表,根据VCF文件中的表头信息,指定各表的列名、列属性、主键列,并采用键值对保存样本与样本所属表格的对应关系;S3、为步骤S2中各个表指定统一的分区方式,即将表水平切分成多个tablet分片;S4、将步骤S1预处理后的数据加载到前述步骤所创建的kudu表格中;所述分布式位图索引创建过程包括以下步骤:S5、扫描kudu中样本表各数据列,统计各列的属性基数并记录属性值;S6、并发从多个节点上扫描样本表各tablet分片的数据列,对步骤S5中得到的列的各个属性值分别建立位图索引,若数据值等于属性值,则置该属性位图的位为1,否则置为0;S7、对步骤S6中得到的位图索引进行压缩;S8、将步骤S7中得到的压缩后的局部位图索引保存在当前节点上;S9、在主节点上生成位图索引的元数据信息,保存索引对应的表名、tablet序号、索引范围及所在节点位置信息;所述分布式查询检索过程包括以下步骤:S10、解析查询语句,根据查询语句中的样本名确定查询所涉及的表,根据范围过滤词确定对应的tablet分片,根据关键词确定查询类型,对查询进行分发,若查询为行记录读取,则执行步骤S11,否则执行步骤S12;S11、通过impala提交查询,impala生成执行树从对应tablet中读取数据并组装成行返回;S12、访问主节点,读取步骤S9中的索引元数据信息,并发从查询所涉及的tablet分片所在节点读取局部位图索引,根据查询类型进行bitwise操作,并将各节点结果汇合,得到最终的位信息,将位信息解析成VCF位点信息并返回。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711267170.6/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置