[发明专利]数据分区存储方法及装置在审

专利信息
申请号: 202011187097.3 申请日: 2020-10-29
公开(公告)号: CN112233727A 公开(公告)日: 2021-01-15
发明(设计)人: 孙成全;李雷;曹银川;成岗;刘冰;吴俊;李瑞强 申请(专利权)人: 北京诺禾致源科技股份有限公司
主分类号: G16B50/30 分类号: G16B50/30;G16B20/30;G16B20/50
代理公司: 北京康信知识产权代理有限责任公司 11240 代理人: 周春枚
地址: 102200 北京市昌平区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 分区 存储 方法 装置
【说明书】:

发明公开了一种数据分区存储方法及装置。其中,该方法包括:在预定数据仓库中初始化存储基因突变位点的分区表;根据多个基因突变位点中每一个基因突变位点对应的数据区间将分区表分为多个子区域;获取待存储的目标基因突变位点的起点数值和终点数值;基于目标基因突变位点的起点数值和终点数据将目标基因突变位点匹配并存储到分区表的一个或多个子区域中。本发明解决了相关技术中人类全基因组变异检测结果数据在hive数据仓库分区数目过多或过少,以及分区数据量不均衡的技术问题。

技术领域

本发明涉及生物信息技术领域,具体而言,涉及一种数据分区存储方法及装置。

背景技术

随着生命科学和基因测序技术的快速发展,测序成本的超摩尔定律下降,数据产出能力大幅提高。随着科学研究的深入,对癌症和遗传病等疾病的诊断、治疗和筛查,不仅只是关注单基因对疾病的影响,还包含复杂的多基因对疾病的作用机制,越来越多的国家发起了应用人类全基因组测序进行人类健康的研究。人类的全基因组的长度30亿碱基,存储一个人的30X的WGS(全基因组测序)数据,大概就需要大于90G的硬盘空间。所以随着测序样本增加,积累的数据很容易达到PB(拍字节)级别。人类对于疾病诊断、治疗和筛查,不仅仅关注单个个体本身的变异,还需要通过收集一个群体的全基因组测序数据,建立生物数据库,以便研究人群中各变异的分布情况,以及突变对疾病治疗和诊断的影响。

最早的分析系统是Share Everything(共享架构)单机形式,为了解决海量数据分析诉求和降低系统建设成本,两种全新的架构系统应运而生,一种是基于通用服务器的Share Nothing(无共享)架构,最典型的代表是基于数据库发展的MPP(MassivelyParallel Processing,大规模并行处理)系统;另一种是海量数据分析的Hadoop大数据分析系统。MPP系统受限于单点瓶颈的架构设计,导致其进行海量数据时能力不足;而原生的Hadoop系统由于一开始就瞄准PB/EB(exabytes;艾字节)级的数据,很好解决了海量数据分析问题。虽然建立以Hadoop平台的生物大数据平台,可以很好的管理和存储这些数据,但是对数据的操作效率(如查询分析)较低。

而使用hive仓库的分区表,将数据结构化,并按某种规则进行分区,将数据分布式存储在不同的节点上,可以提高数据的利用效率。因此,可以搭建Hadoop数据平台,Hive数据仓库表以染色体或基因为分区条件建立分区表。

但是,上述通过搭建Hadoop数据平台,以使Hive数据仓库表以染色体或基因为分区条件建立分区表会引入新的问题,人类的基因组是二倍体,有22对常染色体,1对性染色体,及mt线粒体,由于25条染色体(1~22条常染色体,两条性染色体X,Y,另线粒体Mt,)的长度差异较大,如果是以染色体条件分区,有25个数据区,25个分区的数据的数据量有极大的差异。当然也可以按基因分区,因为基因长度大小不一,同样会存在数据量不均衡问题,而且单个表的基因分区数有6万多,会影响查询性能,由于hive本身对分区数据有限制,当然也是可以修改的,主要是因为NameNode(管理文件系统的命名空间;HDFS集群有两类节点,NameNode和多个DataNode)节点的内存限制,如果分区数目很大,会影响NameNode服务,进而影响一系列依赖于NameNode的服务进程。所以要合理设置分区规则。另一方面基因的编码区约占基因组的2%,会缺失98%的非编码区域,不满足全基因测序结果数据的存储。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据分区存储方法及装置,以至少解决相关技术中人类全基因组变异检测结果数据在hive数据仓库分区数目过多或过少,以及分区数据量不均衡的技术问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京诺禾致源科技股份有限公司,未经北京诺禾致源科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011187097.3/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top