[发明专利]一种分布式存储系统中海量数据的冷热判断方法在审

专利信息
申请号: 201811594303.5 申请日: 2018-12-25
公开(公告)号: CN109783443A 公开(公告)日: 2019-05-21
发明(设计)人: 张兴军;刘威;董小社;武旭瑞;赵英交;刘云飞 申请(专利权)人: 西安交通大学
主分类号: G06F16/13 分类号: G06F16/13;G06F16/17;G06F16/182
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 徐文权
地址: 710049 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 冷热 哈希表 分布式存储系统 哈希函数 哈希结果 数据访问信息 访问频度 内存空间 数据访问 数据判断 统计数据 系统性能 准确率 衰减 索引 移除 访问 统计
【权利要求书】:

1.一种分布式存储系统中海量数据的冷热判断方法,其特征在于,包括以下步骤:

步骤1,构建一个分布式存储系统,并确定该分布式系统的数据访问方式;

步骤2,在内存中申请一段连续空间作为散列表,用以记录该分布式系统的数据访问情况,一共采用V个散列表,其中负责记录当前数据访问信息的散列表CHT共有M位,每一位大小都为Vbits,占用的空间大小为M×V bits;

步骤3,选取K个均匀的哈希函数为Data ID进行散列;

步骤4,将步骤3中的哈希结果映射到当前版本散列表的对应位置上,用于统计映射到这一位的数据被访问的总次数;

步骤5,经过访问周期T后,执行散列表切换;

步骤6,进行数据冷热判断。

2.根据权利要求1所述的一种分布式存储系统中海量数据的冷热判断方法,其特征在于,步骤1中,根据文件存储系统中的路径名+文件名,或块存储系统中的数据块+偏移量,或对象存储系统中的存储池+对象名来确定文件访问的Data ID;根据Data ID,唯一确定某一数据;在分布式存储系统运行时,若有数据访问发生,则根据Data ID记录本次数据访问。

3.根据权利要求1所述的一种分布式存储系统中海量数据的冷热判断方法,其特征在于,步骤2中,当前版本散列表CHT的大小为V,其他版本的散列表每一位的大小依次递减;即多版本散列表中每一个散列表的大小依次为V,V-1,V-2…1,总体需要大小的内存空间。

4.根据权利要求1所述的一种分布式存储系统中海量数据的冷热判断方法,其特征在于,步骤4中,步骤3产生的K个结果在散列表中对应的K位均增加1;若有某一位的Vbits已经全部置为1,则这一位保持不变。

5.根据权利要求1所述的一种分布式存储系统中海量数据的冷热判断方法,其特征在于,步骤5中,采用轮询方式选定下一个散列表,新的CHT需要将其每一位的大小置为Vbits,并将其内容全部置为0;其他散列表则需要进行降级,将其首位全部置为0,以降低其权重。

6.根据权利要求1所述的一种分布式存储系统中海量数据的冷热判断方法,其特征在于,步骤6中,首先根据数据的Data ID进行K次哈希计算,再根据计算的结果访问散列表对应的K个位置,将这K个位置的访问记录转换为整形,并选出其中的最小值作为数据在该时间段内的访问频度;使用该方法依次得出数据在其他版本的散列表中的访问频度,然后加和,计算出数据的热度H;最后将H与设定的阈值S比较,如果大于S,则认为该数据是热数据,否则视为冷数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811594303.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top