[发明专利]一种数据去重方法有效
申请号: | 201611207408.1 | 申请日: | 2016-12-23 |
公开(公告)号: | CN108241639B | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 王焰辉;李振钊;曾刚 | 申请(专利权)人: | 中科星图股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2455 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 101399 北京市顺义区临空经济核*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据块 数据库服务器 存储 分块 去重 接口服务器 数据文件 重复数据块 重复数据 最小数据 非重复 分块数 哈希 结尾 指向 指针 分类 | ||
本发明公开了一种数据去重方法,该方法包括:基于数据块的最后一个字节,对数据块进行分类,同时设置对应于每一类数据块进行处理和存储的数据库服务器;接口服务器设置最小数据块长度,对于需求去重的数据文件,如果小于该最小长度,直接发送给该数据块对应的数据库服务器;否则使用不同的结尾字节对该数据文件分块;在分块数最多的六种分块方式中,接口服务器选择重复数据量最大的两种分块方式,指示相应的数据库服务器进行存储;所述数据库服务器对于重复数据块,仅存储一个指针,指向已存储的相同数据块;对于非重复数据块,则存储整个数据块及其哈希值。
【技术领域】
本发明属于计算机和数据库领域,具体的,涉及一种数据去重方法。
【背景技术】
近年来,为了处理大量的信息,出现了大数据的概念。所谓大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
由于数据的海量特性,人们仅仅凭一己之力很难对这些数据这些分析,但是在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据逐步为人类创造更多的价值。
但是,尽管用于做大数据分析的计算机越来越多,性能越来越好,但是面对海量数据仍然力不从心,因此大数据分析的第一步,是检测和消除其中的重复数据,通过数据去重,一方面是减少存储空间和网络带宽的占用,另一方面是减少数据分析量。
现有技术中的常见的数据去重方法是通过比较整个数据文件的哈希值来检测重复数据。这种检测方法过于简单,检出率不高。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种新的数据去重方法,其技术方案如下:
一种数据去重方法,该方法包括以下步骤:
步骤100:基于数据块的最后一个字节,对数据块进行分类,同时设置对应于每一类数据块进行处理和存储的数据库服务器;
步骤200:接口服务器设置最小数据块长度,对于需求去重的数据文件,如果小于该最小长度,直接发送给该数据块对应的数据库服务器;否则使用不同的结尾字节对该数据文件分块,分块基于以下原则:除最后一块外,每一块的长度不小于该最小长度,且结尾字节相同。
步骤300:在分块数最多的六种分块方式中,接口服务器选择重复数据量最大的两种分块方式,指示相应的数据库服务器进行存储;
步骤400:所述数据库服务器对于重复数据块,仅存储一个指针,指向已存储的相同数据块;对于非重复数据块,则存储整个数据块及其哈希值。
进一步地,所述数据库服务器基于数据块的哈希值来判断数据块是否是重复数据块。
进一步地,所述哈希值是使用MD5算法计算的。
进一步地,所述哈希值是使用SHA-1算法计算的。
进一步地,所述哈希值是使用SHA-256算法计算的。
本发明的技术效果是:提高了重复数据的检出率,减少了大数据分析的数据分析量和存储空间占用。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明方法的基本流程图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的不当限定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科星图股份有限公司,未经中科星图股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611207408.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多用户节点间数据传输系统
- 下一篇:一种分布式的文件存储方法