[发明专利]一种数据去重方法有效

申请号：	201611207408.1	申请日：	2016-12-23
公开（公告）号：	CN108241639B	公开（公告）日：	2019-07-23
发明（设计）人：	王焰辉;李振钊;曾刚	申请（专利权）人：	中科星图股份有限公司
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/2455
代理公司：	北京安博达知识产权代理有限公司 11271	代理人：	徐国文
地址：	101399 北京市顺义区临空经济核***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据块数据库服务器存储分块去重接口服务器数据文件重复数据块重复数据最小数据非重复分块数哈希结尾指向指针分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据去重方法，该方法包括：基于数据块的最后一个字节，对数据块进行分类，同时设置对应于每一类数据块进行处理和存储的数据库服务器；接口服务器设置最小数据块长度，对于需求去重的数据文件，如果小于该最小长度，直接发送给该数据块对应的数据库服务器；否则使用不同的结尾字节对该数据文件分块；在分块数最多的六种分块方式中，接口服务器选择重复数据量最大的两种分块方式，指示相应的数据库服务器进行存储；所述数据库服务器对于重复数据块，仅存储一个指针，指向已存储的相同数据块；对于非重复数据块，则存储整个数据块及其哈希值。

【技术领域】

本发明属于计算机和数据库领域，具体的，涉及一种数据去重方法。

【背景技术】

近年来，为了处理大量的信息，出现了大数据的概念。所谓大数据，是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

由于数据的海量特性，人们仅仅凭一己之力很难对这些数据这些分析，但是在以云计算为代表的技术创新大幕的衬托下，这些原本很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据逐步为人类创造更多的价值。

但是，尽管用于做大数据分析的计算机越来越多，性能越来越好，但是面对海量数据仍然力不从心，因此大数据分析的第一步，是检测和消除其中的重复数据，通过数据去重，一方面是减少存储空间和网络带宽的占用，另一方面是减少数据分析量。

现有技术中的常见的数据去重方法是通过比较整个数据文件的哈希值来检测重复数据。这种检测方法过于简单，检出率不高。

【发明内容】

为了解决现有技术中的上述问题，本发明提出了一种新的数据去重方法，其技术方案如下：

一种数据去重方法，该方法包括以下步骤：

步骤100：基于数据块的最后一个字节，对数据块进行分类，同时设置对应于每一类数据块进行处理和存储的数据库服务器；

步骤200：接口服务器设置最小数据块长度，对于需求去重的数据文件，如果小于该最小长度，直接发送给该数据块对应的数据库服务器；否则使用不同的结尾字节对该数据文件分块，分块基于以下原则：除最后一块外，每一块的长度不小于该最小长度，且结尾字节相同。