[发明专利]一种基因变异数据分布式存储方法及系统有效

专利信息
申请号: 201711267170.6 申请日: 2017-12-05
公开(公告)号: CN108563923B 公开(公告)日: 2020-08-18
发明(设计)人: 董守斌;王博;董守玲;袁华 申请(专利权)人: 华南理工大学
主分类号: G16C20/90 分类号: G16C20/90;G16C20/70
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 冯炳辉
地址: 510006 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基因变异数据分布式存储方法及系统,该方法包括分布式数据存储过程、分布式位图索引创建过程和分布式查询检索过程;该系统包括分布式列式存储模块、分布式位图索引模块和查询检索模块。本发明通过采用新的列式存储引擎kudu进行数据分布式存储,并针对各样本列建立分布式局部位图索引,有效解决现有的HDFS方案随机数据访问性能低的问题;解决HBase方案批量分析性能不佳的问题;简化存储架构模型;解决基因型查询工具对多个工具依赖的限制问题;同时本发明通过分布式的局部位图索引方案,实现了高并发,并提高了可拓展性。
搜索关键词: 一种 基因 变异 数据 分布式 存储 方法 系统
【主权项】:
1.一种基因变异数据分布式存储方法,其特征在于:该方法包括分布式数据存储过程、分布式位图索引创建过程和分布式查询检索过程;所述分布式数据存储过程包括以下步骤:S1、对VCF文件进行预处理,将VCF头部切除,将VCF文件纵向切分成元数据信息和样本基因型信息两部分,并将样本基因型数据进一步纵向切分成所需大小的数据集;S2、对步骤S1中的各份数据,在列式存储kudu中创建对应的元数据表及样本表,根据VCF文件中的表头信息,指定各表的列名、列属性、主键列,并采用键值对保存样本与样本所属表格的对应关系;S3、为步骤S2中各个表指定统一的分区方式,即将表水平切分成多个tablet分片;S4、将步骤S1预处理后的数据加载到前述步骤所创建的kudu表格中;所述分布式位图索引创建过程包括以下步骤:S5、扫描kudu中样本表各数据列,统计各列的属性基数并记录属性值;S6、并发从多个节点上扫描样本表各tablet分片的数据列,对步骤S5中得到的列的各个属性值分别建立位图索引,若数据值等于属性值,则置该属性位图的位为1,否则置为0;S7、对步骤S6中得到的位图索引进行压缩;S8、将步骤S7中得到的压缩后的局部位图索引保存在当前节点上;S9、在主节点上生成位图索引的元数据信息,保存索引对应的表名、tablet序号、索引范围及所在节点位置信息;所述分布式查询检索过程包括以下步骤:S10、解析查询语句,根据查询语句中的样本名确定查询所涉及的表,根据范围过滤词确定对应的tablet分片,根据关键词确定查询类型,对查询进行分发,若查询为行记录读取,则执行步骤S11,否则执行步骤S12;S11、通过impala提交查询,impala生成执行树从对应tablet中读取数据并组装成行返回;S12、访问主节点,读取步骤S9中的索引元数据信息,并发从查询所涉及的tablet分片所在节点读取局部位图索引,根据查询类型进行bitwise操作,并将各节点结果汇合,得到最终的位信息,将位信息解析成VCF位点信息并返回。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711267170.6/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top