[发明专利]一种数据去重方法及装置在审
申请号: | 201910756841.8 | 申请日: | 2019-08-16 |
公开(公告)号: | CN110569224A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 汤高蒙 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/174 |
代理公司: | 11262 北京安信方达知识产权代理有限公司 | 代理人: | 胡艳华;解婷婷 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据行 去重 存储空间 冗余数据 节约 申请 | ||
本申请实施例提供一种数据去重方法及装置,所述方法包括:获得待去重的多个数据行和去重字段;基于所述去重字段和所述多个数据行,生成所述多个数据行各自对应的数据行标识;基于所述多个数据行各自对应的数据行标识,对所述多个数据行中具有相同的数据行标识的数据行进行去重处理,获得去重结果。如此,能够大大减少冗余数据,节约存储空间。
技术领域
本申请涉及数据存储领域,尤其涉及一种数据去重方法及装置。
背景技术
随着计算机技术和互联网技术的不断发展,数据存储量成指数倍地增长。而分布式文件系统,如HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),是对超大规模数据集提供可靠存储功能的系统,被广泛应用于高效存储和读取海量分布式数据的应用当中。
但是,在大数据时代,随着存储数据量的激增,如果不对分布式文件系统中的数据量进行缩减,会大大地降低分布式文件系统的性能。因此,如何去除分布式文件系统中的海量数据中重复的内容,减少冗余数据对存储容量的占用是急需解决的问题。
发明内容
有鉴于此,本申请实施例提供一种数据去重方法及装置,通过对多个数据行中的具有相同数据行标识的数据行进行去重处理,能够实现大大减少冗余数据,节约存储空间。
本申请实施例主要提供如下技术方案:
第一方面,本申请实施例提供了一种数据去重方法,所述方法包括:获得待去重的多个数据行和去重字段;基于所述去重字段和所述多个数据行,生成所述多个数据行各自对应的数据行标识;基于所述多个数据行各自对应的数据行标识,对所述多个数据行中具有相同的数据行标识的数据行进行去重处理,获得去重结果。
第二方面,本申请实施例提供了一种数据去重装置,所述装置包括:第一获得单元,用于获得待去重的多个数据行和去重字段;生成单元,用于基于所述去重字段和所述多个数据行,生成所述多个数据行各自对应的数据行标识;第二获得单元,用于基于所述多个数据行各自对应的数据行标识,对所述多个数据行中具有相同的数据行标识的数据行进行去重处理,获得去重结果。
第三方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在计算机设备执行上述的数据去重方法的步骤。
第四方面,本申请实施例提供了一种计算机设备,所述计算机设备包括:至少一个处理器;以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述的数据去重方法的步骤。
本申请实施例提供的数据去重方法及装置,在获得待去重的多个数据行和去重字段后,就可以根据该去重字段和多个数据行,生成多个数据行各自对应的数据行标识,最后,基于多个数据行各自对应的数据行标识,对多个数据行中具有相同的数据行标识的数据行进行去重处理,获得去重结果。这样,由于是以多个数据行为单位来进行去重处理,通过对多个数据行中的具有相同数据行标识的数据行进行去重处理,能够实现对分布式文件系统所存储的文件的内部数据进行局部去重,能够大大减少冗余数据,从而,能够节约存储空间,提升分布式文件系统的性能。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例中的数据去重方法的流程示意图一;
图2为本申请实施例中的配置界面的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910756841.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据库日志处理方法以及装置
- 下一篇:一种数据存储方法及系统