[发明专利]一种基于哈希的HDFS后端存储系统有效

专利信息
申请号: 202110635461.6 申请日: 2021-06-08
公开(公告)号: CN113377709B 公开(公告)日: 2022-07-19
发明(设计)人: 刘彬彬;殷双飞;邓玲 申请(专利权)人: 北京计算机技术及应用研究所
主分类号: G06F16/13 分类号: G06F16/13;G06F16/16;G06F16/182;G06F3/06;G06F11/10
代理公司: 中国兵器工业集团公司专利中心 11011 代理人: 王雪芬
地址: 100854*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hdfs 后端 存储系统
【说明书】:

发明涉及一种基于哈希的HDFS后端存储系统,涉及数据存储技术领域。本发明在HDFS的DataNode部分添加哈希函数,用于将HDFS的数据块ID映射成相应的内存和磁盘地址偏移,DataNode可以根据地址偏移直接与内存和磁盘进行数据交互,绕过了原有的本地文件系统层,HDFS后端存储系统相关的元数据存储在磁盘首部,集群重启时可根据元数据重建内存数据结构,从而保证了数据的安全性和一致性。本发明缩短了HDFS的IO路径,提高了HDFS的存取性能,提升了用户的数据存储体验。

技术领域

本发明涉及数据存储技术领域,具体涉及一种基于哈希的HDFS后端存储系统。

背景技术

在分布式文件系统HDFS中,集群文件数据被切分为固定大小的块,存储在各个DataNode上,这些数据块直接以文件的形式存储在本地文件系统中。本地文件系统具有很好的稳定性和兼容性,HDFS只需简单的调用文件系统接口即可实现数据读写操作,但这种设计会带来一定的性能损失。首先,本地文件系统中的目录结构、文件权限等元数据信息HDFS集群并未使用,属于无效数据。其次,本地文件系统为了保障数据一致性设计了本地日志保护机制,这对于HDFS的数据一致性保障机制来说属于冗余数据。无效数据和冗余数据的存储不仅降低了系统的读写性能,而且浪费了磁盘存储空间,存在读写放大问题。再者,HDFS所需的校验和数据只能以单独的文件存储,无法以文件属性的方式和数据形成高耦合,定位这些数据可能需要多次磁盘寻址,进而影响系统整体的读写性能。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是:如何解决HDFS后端存储过程中使用本地文件系统时存在的读写放大、磁盘利用率低的问题,提升HDFS的读写性能。

(二)技术方案

为了解决上述技术问题,本发明提供了一种基于哈希的HDFS后端存储系统设计方法,将该HDFS后端存储系统设计为包括计算模块、磁盘和内存;所述计算模块布置于HDFS的DataNode中,通过哈希函数实现将HDFS的数据块ID映射成相应的内存和磁盘地址偏移的功能;

所述磁盘的存储空间被划分为两大部分,磁盘首部存储着HDFS后端存储系统的元数据信息,其余空间存储用户数据;

HDFS后端存储系统的元数据设计为由以下几个字段组成,头部4个字节的空间存储魔数,用以标识该磁盘已被初始化,后8个字节的空间存储HDFS块大小信息,接下来8字节存储块数量信息,指示该HDFS最多能够存储的块数量,最后是块数量对应个数的数据块ID,每个数据块ID占用8字节空间,如果该位置有数据,则标志着用户数据部分相应偏移的空间存储的数据是有效的;

用户数据由三个字段组成,起始的8字节用于表示实际存储数据的长度,接下来的部分为预留数据、校验和的空间,其大小由HDFS后端存储系统的元数据中块大小字段指定,这三个字段按元数据中块数量字段的指示依次分配,每一块占用的空间大小固定,可通过计算偏移直接读写相应的数据;

内存的存储空间被分为两个部分,SystemInfo和BlockInfo,SystemInfo类存储着HDFS后端存储系统的元数据信息,blockSize字段和blockNumber字段分别对应磁盘中的块大小和块数量,blockInfos数组存储所有数据块的信息,其中每一个元素均为BlockInfo类;BlockInfo类存储单独数据块的信息,包括数据块ID、块实际长度和校验和;

HDFS后端存储系统初始化时,磁盘中的数据被读取到内存中相应数据结构的字段内;HDFS后端存储系统发生数据读写时,哈希函数接收数据块ID并计算偏移,该偏移为内存空间中blockInfos数组的下标,HDFS后端存储系统可以据此读写对应BlockInfo类中的字段。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110635461.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top