[发明专利]数据分区存储方法及装置在审
申请号: | 202011187097.3 | 申请日: | 2020-10-29 |
公开(公告)号: | CN112233727A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 孙成全;李雷;曹银川;成岗;刘冰;吴俊;李瑞强 | 申请(专利权)人: | 北京诺禾致源科技股份有限公司 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G16B20/30;G16B20/50 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周春枚 |
地址: | 102200 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 分区 存储 方法 装置 | ||
本发明公开了一种数据分区存储方法及装置。其中,该方法包括:在预定数据仓库中初始化存储基因突变位点的分区表;根据多个基因突变位点中每一个基因突变位点对应的数据区间将分区表分为多个子区域;获取待存储的目标基因突变位点的起点数值和终点数值;基于目标基因突变位点的起点数值和终点数据将目标基因突变位点匹配并存储到分区表的一个或多个子区域中。本发明解决了相关技术中人类全基因组变异检测结果数据在hive数据仓库分区数目过多或过少,以及分区数据量不均衡的技术问题。
技术领域
本发明涉及生物信息技术领域,具体而言,涉及一种数据分区存储方法及装置。
背景技术
随着生命科学和基因测序技术的快速发展,测序成本的超摩尔定律下降,数据产出能力大幅提高。随着科学研究的深入,对癌症和遗传病等疾病的诊断、治疗和筛查,不仅只是关注单基因对疾病的影响,还包含复杂的多基因对疾病的作用机制,越来越多的国家发起了应用人类全基因组测序进行人类健康的研究。人类的全基因组的长度30亿碱基,存储一个人的30X的WGS(全基因组测序)数据,大概就需要大于90G的硬盘空间。所以随着测序样本增加,积累的数据很容易达到PB(拍字节)级别。人类对于疾病诊断、治疗和筛查,不仅仅关注单个个体本身的变异,还需要通过收集一个群体的全基因组测序数据,建立生物数据库,以便研究人群中各变异的分布情况,以及突变对疾病治疗和诊断的影响。
最早的分析系统是Share Everything(共享架构)单机形式,为了解决海量数据分析诉求和降低系统建设成本,两种全新的架构系统应运而生,一种是基于通用服务器的Share Nothing(无共享)架构,最典型的代表是基于数据库发展的MPP(MassivelyParallel Processing,大规模并行处理)系统;另一种是海量数据分析的Hadoop大数据分析系统。MPP系统受限于单点瓶颈的架构设计,导致其进行海量数据时能力不足;而原生的Hadoop系统由于一开始就瞄准PB/EB(exabytes;艾字节)级的数据,很好解决了海量数据分析问题。虽然建立以Hadoop平台的生物大数据平台,可以很好的管理和存储这些数据,但是对数据的操作效率(如查询分析)较低。
而使用hive仓库的分区表,将数据结构化,并按某种规则进行分区,将数据分布式存储在不同的节点上,可以提高数据的利用效率。因此,可以搭建Hadoop数据平台,Hive数据仓库表以染色体或基因为分区条件建立分区表。
但是,上述通过搭建Hadoop数据平台,以使Hive数据仓库表以染色体或基因为分区条件建立分区表会引入新的问题,人类的基因组是二倍体,有22对常染色体,1对性染色体,及mt线粒体,由于25条染色体(1~22条常染色体,两条性染色体X,Y,另线粒体Mt,)的长度差异较大,如果是以染色体条件分区,有25个数据区,25个分区的数据的数据量有极大的差异。当然也可以按基因分区,因为基因长度大小不一,同样会存在数据量不均衡问题,而且单个表的基因分区数有6万多,会影响查询性能,由于hive本身对分区数据有限制,当然也是可以修改的,主要是因为NameNode(管理文件系统的命名空间;HDFS集群有两类节点,NameNode和多个DataNode)节点的内存限制,如果分区数目很大,会影响NameNode服务,进而影响一系列依赖于NameNode的服务进程。所以要合理设置分区规则。另一方面基因的编码区约占基因组的2%,会缺失98%的非编码区域,不满足全基因测序结果数据的存储。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据分区存储方法及装置,以至少解决相关技术中人类全基因组变异检测结果数据在hive数据仓库分区数目过多或过少,以及分区数据量不均衡的技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京诺禾致源科技股份有限公司,未经北京诺禾致源科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011187097.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置