[发明专利]一种基于统一采样的快速相似数据检测方法有效
申请号: | 201910243356.0 | 申请日: | 2019-03-28 |
公开(公告)号: | CN110083743B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 夏文;王轩 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王学强 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统一 采样 快速 相似 数据 检测 方法 | ||
本发明提供了一种基于统一采样的快速相似数据检测方法,包括以下步骤:A、基于滑动窗口算法快速计算哈希集合;B、对计算得出的哈希集合进行快速统一采样;C基于采样后的哈希集合,再提取相似性特征值和超级特征值用于相似性匹配查找。本发明的有益效果是:在保持原有的相似性检测效率的前提下,通过快速滑动哈希计算,以及通过统一采样方法大幅度地减少了需要线性变换的指纹数量,从而简化了后面的提取特征值和超级特征值的计算,最终大幅度提升相似数据检测速度,以实现面向大规模存储系统的快速高效的相似数据检测效果。
技术领域
本发明涉及相似数据检测方法,尤其涉及一种基于统一采样的快速相似数据检测方法。
背景技术
近年来,随着计算机技术和网络的发展普及,全球的数据信息存储量呈爆炸式增长的趋势。虽然存储设备的售价一直在不停地下降,但也远远赶不上数据扩张增长的速度。数据消冗(或称冗余数据消除)作为一种通过大规模地有效地消除冗余数据的技术,成为了近年来存储系统研究的热点。冗余数据消除不仅能够大量地节省了存储空间以及提高存储系统性能,而且通过避免冗余数据传输而节省了网络带宽。冗余数据消除技术的兴起源于存储市场中的大量数据备份和归档的需求,而需求带动了研发与产品化,IBM、HP、EMC、NEC、Microsoft这些存储大公司都瞄准了数据消冗市场,开发出了一系列的数据消冗产品。一般而言,通过有效地检测并消除存储系统中的冗余数据,可以实现数倍甚至是数十倍地节省存储空间的效果。
面向存储系统的数据消冗技术包括数据去重和差量压缩,其中差量压缩主要负责处理相似数据消冗。比如两个数据块A1和A2仅几个字节不同的情况,差量压缩技术通过计算数据块A1和A2的差量,实现节省存储空间的目的。具体而言,差量压缩是一项高效的数据压缩技术,它能够根据引用数据块Ar对其相似数据块Ai进行高度压缩。数据块的相似度越高,则压缩效率越高。如公式所示,把Ar和Ai输入Delta算法器,Delta算法器会输出一个差量数据△r,i代表文件Ai的压缩版本。如需要解压数据Ai,则读取差量数据和引用数据块Ar即可以计算得出数据Ai。
但是把差量压缩技术结合到存储系统中不那么简单,主要的挑战是需要先确定对哪些数据进行差量压缩,即如何查找相似的数据。现有的相似数据查找方法具有计算速度慢,可扩展性差等缺点,现在常用的相似性特征值提取方法计算带宽只有几十MB/s,这严重限制了差量压缩算法的推广和发展。
原始的方案基于全局扫描数据块的特征值(假设数据块的长度为N),具体采用基于滑动窗口的技术,针对每个窗口算法Rabin哈希值,这样就产生了N个Rabin值,同时对着N个Rabin值进行M次线性变换,获得M维Rabin值,然后对这M维的数据进行特征值提取(一般来说是提取最大值),这样就获得了M个特征值,然后对这M个特征值进行组合就获得了超级特征值。
如下公式给出了具体计算案例:
SuperFearturek=Rabin(Feature1,Feature2,...) (4)
这里Featurei指的就是相似性特征值,SuperFeaturek指的是超级特征值,Rabin(Wj)表示滑动窗口Wj的Rabin指纹,mi和ai表示预定的随机数;在这里数据块的长度为N,所以该数据块有N个滑动窗口,相似性特征值Feature就是在这N个滑动窗口的Rabin指纹中取哈希最大值。不同预定值mi和ai就会产生不同相似性特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910243356.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频查询方法和装置
- 下一篇:一种基于知识图谱的教学问题诊断方法及系统