[发明专利]一种分布式存储系统中海量数据的冷热判断方法在审
申请号: | 201811594303.5 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109783443A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 张兴军;刘威;董小社;武旭瑞;赵英交;刘云飞 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/17;G06F16/182 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 冷热 哈希表 分布式存储系统 哈希函数 哈希结果 数据访问信息 访问频度 内存空间 数据访问 数据判断 统计数据 系统性能 准确率 衰减 索引 移除 访问 统计 | ||
1.一种分布式存储系统中海量数据的冷热判断方法,其特征在于,包括以下步骤:
步骤1,构建一个分布式存储系统,并确定该分布式系统的数据访问方式;
步骤2,在内存中申请一段连续空间作为散列表,用以记录该分布式系统的数据访问情况,一共采用V个散列表,其中负责记录当前数据访问信息的散列表CHT共有M位,每一位大小都为Vbits,占用的空间大小为M×V bits;
步骤3,选取K个均匀的哈希函数为Data ID进行散列;
步骤4,将步骤3中的哈希结果映射到当前版本散列表的对应位置上,用于统计映射到这一位的数据被访问的总次数;
步骤5,经过访问周期T后,执行散列表切换;
步骤6,进行数据冷热判断。
2.根据权利要求1所述的一种分布式存储系统中海量数据的冷热判断方法,其特征在于,步骤1中,根据文件存储系统中的路径名+文件名,或块存储系统中的数据块+偏移量,或对象存储系统中的存储池+对象名来确定文件访问的Data ID;根据Data ID,唯一确定某一数据;在分布式存储系统运行时,若有数据访问发生,则根据Data ID记录本次数据访问。
3.根据权利要求1所述的一种分布式存储系统中海量数据的冷热判断方法,其特征在于,步骤2中,当前版本散列表CHT的大小为V,其他版本的散列表每一位的大小依次递减;即多版本散列表中每一个散列表的大小依次为V,V-1,V-2…1,总体需要大小的内存空间。
4.根据权利要求1所述的一种分布式存储系统中海量数据的冷热判断方法,其特征在于,步骤4中,步骤3产生的K个结果在散列表中对应的K位均增加1;若有某一位的Vbits已经全部置为1,则这一位保持不变。
5.根据权利要求1所述的一种分布式存储系统中海量数据的冷热判断方法,其特征在于,步骤5中,采用轮询方式选定下一个散列表,新的CHT需要将其每一位的大小置为Vbits,并将其内容全部置为0;其他散列表则需要进行降级,将其首位全部置为0,以降低其权重。
6.根据权利要求1所述的一种分布式存储系统中海量数据的冷热判断方法,其特征在于,步骤6中,首先根据数据的Data ID进行K次哈希计算,再根据计算的结果访问散列表对应的K个位置,将这K个位置的访问记录转换为整形,并选出其中的最小值作为数据在该时间段内的访问频度;使用该方法依次得出数据在其他版本的散列表中的访问频度,然后加和,计算出数据的热度H;最后将H与设定的阈值S比较,如果大于S,则认为该数据是热数据,否则视为冷数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811594303.5/1.html,转载请声明来源钻瓜专利网。