[发明专利]一种基于Ceph的海量小文件存取优化方法有效

专利信息
申请号: 201810343960.6 申请日: 2018-04-17
公开(公告)号: CN108710639B 公开(公告)日: 2021-05-14
发明(设计)人: 王勇;陆小霞;叶苗;郇宜鸣 申请(专利权)人: 桂林电子科技大学
主分类号: G06F16/16 分类号: G06F16/16;G06F16/172;G06F16/13;G06F16/182
代理公司: 桂林市持衡专利商标事务所有限公司 45107 代理人: 陈跃琳
地址: 541004 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 ceph 海量 文件 存取 优化 方法
【说明书】:

发明公开一种基于Ceph的海量小文件存取优化方法,当用户存储文件时,先利用K‑means聚类算法获得小文件的关联分组,再对每组内的文件按从大到小的顺序进行排序,然后将关联分组内的关联文件进行合并后再存储至Ceph中。当用户发起访问请求时,系统先检查请求文件是否在缓存中,若存在直接读取并返回请求文件;否则将请求信息发送到Ceph集群,实现小文件的读取并根据文件块间的利用率及相关率进行小文件的预取及缓存,返回请求文件及预取小文件。该发明通过减少用户与集群的交互,减少用户访问时间,提高海量小文件的访问效率,提高系统的整体性能。

技术领域

本发明涉及分布式文件存储技术领域,具体涉及一种基于Ceph的海量小文件存取优化方法。

背景技术

随着云计算和大数据的迅速发展,全球数据量呈指数递增,传统的存储系统由于其设备成本和维护成本等因素已不能渐渐满足人的存储需求。此外,随着小文件数量的不断增大,大部分分布式存储系统已经不能满足小文件的高效存储和读取的需求。如何解决海量小文件的存储和管理问题,提高小文件的存储和访问效率是现在最大的挑战。

Ceph是一种分布式文件系统,其在处理大文件时,可以实现文件的高效存储和管理,但Ceph在存储海量小文件时,仍存在一些不足:

(1)海量小文件的存储效率较低。Ceph本地存储接口为支持事务,引入日志机制使得所有的写入操作都需要先写入日志,再通过对象存储接口写入本地文件系统,因此在大规模连续I/O的情况下,实际磁盘上输出的吞吐量是其物理性能的一半,导致小文件存储性能较低;

(2)海量小文件的读取效率不高。当小文件被频繁访问时,集群需要在多个存储节点之间不断跳跃查找,因此会导致Ceph集群的小文件读取性能较差。

发明内容

本发明所要解决的是Ceph在处理海量小文件时存在存储和读取效率低的问题,提供一种基于Ceph的海量小文件存取优化方法。

为解决上述问题,本发明是通过以下技术方案实现的:

一种基于Ceph的海量小文件存取优化方法,包括步骤如下:

步骤1、获取客户端同一时段内待上传的文件的文件的文件名和文件大小,并根据设定的文件阈值对这些文件进行分类:当待上传的文件的大小大于文件阈值时,则判定为大文件,直接上传到Ceph集群;当待上传的文件的大小等于或小于文件阈值时,则判定为小文件;

步骤2、利用K-means聚类算法对小文件进行关联分组,并对各个分组内的小文件按照文件大小从大到小进行排序,再将各分组内的小文件依次进行合并后上传到Ceph集群,同时根据小文件在合并文件内的映射关系生成索引文件;

步骤3、当用户发出访问请求时,客户端判断请求文件是否在客户端的缓存中:若在客户端的缓存中,则直接从客户端的缓存中直接访问该请求文件;否则,客户端将请求信息上传Ceph集群;

步骤4、Ceph集群接收请求信息,并根据请求文件的文件名确定其文件类型,若请求文件为大文件时,则直接从Ceph集群中读取该请求文件,并存储到客户端缓存中供用户访问,若请求文件为小文件时,则先根据索引文件确定请求文件在合并文件中的具体位置信息,再从Ceph集群中读取该请求文件,并存储到客户端缓存中供用户访问。

上述步骤1中,文件阈值根据Ceph集群文件块大小设定。

上述步骤2中,各个分组内的小文件在关联合并过程中,需要判断待合并的小文件与之前合并生成的合并文件的大小之和是否大于文件阈值;若小于等于文件阈值,直接将待合并的小文件合并到之前合并生成的合并文件中,否则,需要重新申请一个合并文件。

上述步骤2中,索引文件的结构为key,value,其中key保存小文件的文件名,value保存小文件在合并文件中的起始位置file_offset和小文件的大小file_length。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810343960.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top