[发明专利]一种基于Ceph的海量小文件存取优化方法有效
申请号: | 201810343960.6 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108710639B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 王勇;陆小霞;叶苗;郇宜鸣 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/172;G06F16/13;G06F16/182 |
代理公司: | 桂林市持衡专利商标事务所有限公司 45107 | 代理人: | 陈跃琳 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ceph 海量 文件 存取 优化 方法 | ||
1.一种基于Ceph的海量小文件存取优化方法,包括步骤如下:
步骤1、获取客户端同一时段内待上传的文件的文件的文件名和文件大小,并根据设定的文件阈值对这些文件进行分类:当待上传的文件的大小大于文件阈值时,则判定为大文件,直接上传到Ceph集群;当待上传的文件的大小等于或小于文件阈值时,则判定为小文件;
步骤2、利用K-means聚类算法对小文件进行关联分组,并对各个分组内的小文件按照文件大小从大到小进行排序,再将各分组内的小文件依次进行合并后上传到Ceph集群,同时根据小文件在合并文件内的映射关系生成索引文件;
步骤3、当用户发出访问请求时,客户端判断请求文件是否在客户端的缓存中:若在客户端的缓存中,则直接从客户端的缓存中直接访问该请求文件;否则,客户端将请求信息上传Ceph集群;
步骤4、Ceph集群接收请求信息,并根据请求文件的文件名确定其文件类型,若请求文件为大文件时,则直接从Ceph集群中读取该请求文件,并存储到客户端缓存中供用户访问,若请求文件为小文件时,则先根据索引文件确定请求文件在合并文件中的具体位置信息,再从Ceph集群中读取该请求文件,并存储到客户端缓存中供用户访问;
其特征是,进一步包括文件预取过程,即:
在从Ceph集群中读取请求文件,且请求文件为小文件时,需要计算请求文件所在合并文件内的各个小文件与请求文件的相关率Ψ,并将该合并文件中相关率Ψ大于相关阈值的小文件与请求文件一并读取出来,存储到客户端缓存中;其中相关率Ψ为:
其中,n在统计时间段内请求文件被访问的次数,d表示统计时间段内合并文件中小文件被访问的次数,sum表示统计时间段内所有小文件被访问的总次数。
2.根据权利要求1所述的一种基于Ceph的海量小文件存取优化方法,其特征是,步骤1中,文件阈值根据Ceph集群文件块大小设定。
3.根据权利要求1所述的一种基于Ceph的海量小文件存取优化方法,其特征是,步骤2中,各个分组内的小文件在关联合并过程中,需要判断待合并的小文件与之前合并生成的合并文件的大小之和是否大于文件阈值;若小于等于文件阈值,直接将待合并的小文件合并到之前合并生成的合并文件中,否则,需要重新申请一个合并文件。
4.根据权利要求1所述的一种基于Ceph的海量小文件存取优化方法,其特征是,步骤2中,索引文件的结构为key,value,其中key保存小文件的文件名,value保存小文件在合并文件中的起始位置file_offset和小文件的大小file_length。
5.根据权利要求1所述的一种基于Ceph的海量小文件存取优化方法,其特征是,在文件预取过程中,当合并文件中相关率Ψ大于相关阈值的小文件个数大于给定的最大预取个数num时,则仅将相关率Ψ排在前num位的小文件与请求文件一并存储到客户端缓存中。
6.根据权利要求5所述的一种基于Ceph的海量小文件存取优化方法,其特征是,最大预取个数num为:
其中,math.floor(*)表示向下取整,Tw表示用户的最大等待时间,TCeph表示Ceph集群接收到访问请求到返回文件的时间,Tpre表示Ceph集群预取一个文件的时间。
7.根据权利要求1所述的一种基于Ceph的海量小文件存取优化方法,其特征是,还进一步包括对客户端中的缓存的文件进行缓存优化的过程,即分别计算各个文件的权重Rw,并根据缓存文件的权重Rw对文件进行排序,其中权重高的文件存储在客户端的二级缓存中,而权重低的文件存储在一级缓存中;当后续Ceph集群中新读取的文件需要存储到客户端中的缓存,且缓存空间不足时,逐渐从一级缓存中删除权重Rw最小的文件;其中文件的权重Rw为:
Rw=e-(Nt-Nr)×t
其中,Nt表示客户端缓存的最大容量,Nr表示缓存文件被访问的次数,t表示缓存更新时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810343960.6/1.html,转载请声明来源钻瓜专利网。