[发明专利]一种面向海量小文件的分布式存储方法在审
申请号: | 201510940679.7 | 申请日: | 2015-12-15 |
公开(公告)号: | CN105573674A | 公开(公告)日: | 2016-05-11 |
发明(设计)人: | 陈霸东;肖建锋;郑南宁 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 海量 文件 分布式 存储 方法 | ||
1.一种面向海量小文件的分布式存储方法,其特征在于:包括以下步骤:
步骤1、在存储集群初始化阶段,将数据副本数设置为K,将存储节点分配在N个网 段,每个网段包含M个存储节点,其中,N大于K;
步骤2、在存储集群初始化阶段,创建P个数据分区,将所述P个数据分区称为写入 窗口,数据分区的数量P由用户设定,一个数据分区由K个大文件组成,K个大文件分 别存储在不同网段的存储节点上;在写入窗口的各个数据分区上设置用于标记的序号,将 写入窗口的各个数据分区的可写标志位设置为可写;
步骤3、存储小文件时,从写入窗口中选择一个数据分区,以追加写的方式将该小文 件写入该数据分区;
步骤4、当某个数据分区存储的数据量到达阈值时,将该数据分区从写入窗口中剔除, 当数据分区数量少于P时,参考存储集群中存储节点的实时负载状态和计算性能创建一 个新的数据分区,并纳入写入窗口。
2.根据权利要求1所述一种面向海量小文件的分布式存储方法,其特征在于:所述 步骤2中,数据分区的数量P一般等于存储节点总数量。
3.根据权利要求1所述一种面向海量小文件的分布式存储方法,其特征在于:所述 步骤3具体包括以下步骤:
A1、以随机的方式从写入窗口中选出一个数据分区作为待写入分区;
A2、若待写入分区的可写标志位为不可写,则执行步骤A3;若待写入分区的可写标 志位为可写,则执行步骤A4;
A3、按序号递减的方式遍历写入窗口找到一个可写标志位为可写的数据分区并作为 待写入分区,然后执行步骤A4;若写入窗口中不存在可写标志位为可写的数据分区,则 参考存储集群中存储节点的实时负载状态和计算性能创建一个新的数据分区作为待写入 分区,并纳入写入窗口,然后执行步骤A4;
A4、将待写入分区的可写标志位设置为不可写,然后执行步骤A5;
A5、从待写入分区对应的存储节点中随机选出1个作为第一个写入小文件的存储节 点,该存储节点再将小文件复制到待写入分区的其它存储节点,然后执行步骤A6;
A6、将待写入分区的可写标志位设置为可写。
4.根据权利要求1所述一种面向海量小文件的分布式存储方法,其特征在于:所述 阈值由用户设定。
5.根据权利要求1所述一种面向海量小文件的分布式存储方法,其特征在于:创建 一个新的数据分区包括以下步骤:
B1、从N个网段中随机选出K个网段;
B2、在选出的每个网段中,将M个存储节点按照实时性能排名分数进行排序,然后 从性能较高的M/3个存储节点中随机选出1个节点;若(M/3)<3,则从性能较高的2个存 储节点中随机选出1个;
B3、在选出的K个存储节点创建大文件,构建一个数据分区,并将该数据分区的可 写标志位设置为可写。
6.根据权利要求5所述一种面向海量小文件的分布式存储方法,其特征在于:所述 实时性能排名分数按照以下公式计算:
其中,S表示实时性能排名分数;D表示存储节点实时的可用存储空间,Q表示该存储节 点的性能等级,取值范围为1到10的正整数,RCPU表示该存储节点实时的CPU利用率,RMemory表示该存储节点实时的内存利用率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510940679.7/1.html,转载请声明来源钻瓜专利网。