[发明专利]针对云存储系统中重复冗余数据的高效去重方法有效
申请号: | 201510848801.8 | 申请日: | 2015-11-27 |
公开(公告)号: | CN105487818B | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 张广艳;杨松霖;舒继武;郑纬民 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 冗余数据 数据服务器 去重 云存储系统 数据路由 元数据服务器 特征指纹 客户端 集群 重复 负载均衡策略 数据管理 磁盘使用率 高效快速 接收用户 路由策略 路由节点 匹配确定 系统特性 相似指纹 选择请求 上传 客户 | ||
本发明提出一种针对云存储系统中重复冗余数据的高效去重方法,包括以下步骤:多个客户端接收用户的上传数据,以数据超块作为数据路由单位,并提取其中的路由特征指纹,用于数据路由选择;元数据服务器与数据服务器集群根据路由策略来处理客户端的数据路由选择请求,其中,数据服务器集群对路由特征指纹进行相似指纹匹配确定相似路由节点,元数据服务器根据负载均衡策略确定最终的数据路由地址;客户端与相应的数据服务器交互,接收到相似冗余数据的数据服务器对冗余数据进行高效快速去重。本发明的方法能够使云存储系统在保持高性能、大规模、高吞吐的系统特性的同时,达到高效的重复冗余数据去重效果,提升磁盘使用率,降低数据管理成本。
技术领域
本发明涉及计算机信息存储技术领域,特别涉及一种针对云存储系统中重复冗余数据的高效去重复方法。
背景技术
重复数据删除技术是一种粗粒度的无损的冗余数据去除的特殊数据压缩技术。重复数据删除技术通过对数据进行粗粒度的划分,然后通过指纹计算技术提取数据块的Hash指纹,通过指纹的索引查询来判断数据是否冗余,如果新数据块与存储系统中已有数据内容相同,则不会对新数据进行存储,而是通过保存指向原有数据块的指针,确定数据的存储位置,对于指针存储的开销远远小于对数据的占用空间。因此,重复数据删除技术可以有效的提升存储系统的空间使用率,节省磁盘存储容量。
云存储环境中实现重复数据删除技术是指在云存储架构中加入重删功能,提升存储空间利用率,降低存储成本。在大规模集群中,实现海量数据的存储,基于块级别的在线重复数据删除技术在数据去重率以及存储管理开销上具有很大的优势,受到学术界以及工业界的广泛认可与应用。但是在大规模存储系统中,也存在两大挑战,一是数据块索引查询磁盘瓶颈,二是大规模数据路由问题。
在重复数据删除过程中,对数据块的去重是基于指纹的查找与匹配来判定的。因此索引查询优化是提高重删系统I/O性能,解决磁盘查找瓶颈的关键因素。目前针对于数据块索引优化的策略主要有三类:一是基于数据局部性的优化策略;二是基于相似性理论的优化策略;三是基于SSD的索引优化策略。在集群存储系统中,数据的存储位置是衡量一个存储系统的重要指标,因为这不仅涉及到各节点存储的负载均衡性,也会对上层应用造成一定的影响。而在集群重复数据删除过程中,出于对系统整体性能开销的考虑,跨节点的全局去重会严重降低系统存储性能,所以一般都是采用只对节点内部数据进行数据去重。所以基于集群重复数据删除技术的集群重删系统在数据路由问题上,将会对系统整体去重效果产生很大影响。
发明内容
本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。
为此,本发明的目的在于提出一种针对云存储系统中重复冗余数据的高效去重方法,该方法能够快速地在云存储系统中去除冗余数据,提升存储磁盘利用率,保证系统的吞吐性能,从而降低存储成本。
为了实现上述目的,本发明的实施例提出了一种针对云存储系统中重复冗余数据的高效去重方法,所述云存储系统包括多个数据存储服务器和多个客户端,其中,所述多个数据存储服务器组成的集群包括由多个数据服务器组成的数据服务器集群和一个元数据服务器,所述方法包括以下步骤:S1:所述多个客户端接收用户的上传数据,将所述数据组织成数据超块以作为数据路由单位,并提取其中的数据路由特征指纹,用于数据路由选择;S2:所述元数据服务器与数据服务器集群根据路由策略来处理所述多个客户端的数据路由选择请求,其中,所述数据服务器集群对所述数据路由特征指纹进行相似指纹匹配以确定相似路由节点,所述元数据服务器根据负载均衡策略确定最终的数据路由地址;S3:确定数据路由地址后,所述客户端与相应的数据服务器进行交互,以将相似冗余数据发送至选择的数据服务器,所述选择的数据服务器在接收到相似冗余数据后,在线对冗余数据进行快速去重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510848801.8/2.html,转载请声明来源钻瓜专利网。