[发明专利]一种数据去重处理方法、装置、设备、集群及存储介质有效
申请号: | 201910121676.9 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109828968B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 陶胜;仇贲 | 申请(专利权)人: | 广州虎牙信息科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/242;G06F16/22 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 511400 广东省广州市番禺区南村镇万博二*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 处理 方法 装置 设备 集群 存储 介质 | ||
本发明实施例公开了一种数据去重处理方法、装置、设备、集群及存储介质,其中,该方法应用于集群中的主节点,该方法包括:获取数据查询请求,数据查询请求中包括查询数据表、分组字段名,以及去重字段名;将查询数据表中的数据分配给至少两个数据节点进行分组去重处理,并获取至少两个数据节点形成的去重结果;其中,数据节点用于将分配的数据,按照分组字段名以及去重字段名的字段值存储于多个数据分组表中,为数据分组表中的数据添加行标识,根据分组字段名以及行标识对数据分组表中的数据进行分组去重,形成去重结果;不同的数据节点执行不同数据分组表的行标识添加操作。本发明实施例提供的技术方案可以节省时间,提高效率。
技术领域
本发明实施例涉及数据分析技术领域,尤其涉及一种数据去重处理方法、装置、设备、集群及存储介质。
背景技术
近几年来,随着计算机和信息技术的迅猛发展和普及应用,产生了各种各样的数据,同时也会存在大量的重复数据。在数据不断增长的情况下,如何消除重复数据已经成为在数据分析领域急需解决的业务需求。
现有技术中,在对大量数据进行去重时,可以去重的任务分配给集群,由集群中的数据节点将需要去重的大量数据基于一个分组指标进行分组,由每个数据节点将对应数据分组进行一一匹配,将具有同一分组指标和同一去重指标的重复数据去掉,从而完成对数据的去重。例如,当需要统计在各个产品上的用户数量时,可以将去重的任务分配给集群,由集群中的数据节点将需要去重的大量数据基于产品进行分组,由每个数据节点分别对对应产品的数据分组进行一一匹配,将同一产品同一用户的多余数据去重,从而得到各个产品上的用户数据,从而也可以统计出用户数量。但是现有技术中上述数据去重的方法,花费时间较长,尤其是当数据量较大时,更加浪费时间,效率较低。
发明内容
本发明实施例提供一种数据去重处理方法、装置、设备、集群及存储介质,可以节省时间,提高效率。
第一方面,本发明实施例提供了一种数据去重处理方法,所述方法应用于集群中的主节点,所述方法包括:
获取数据去重查询请求,所述数据查询请求中包括查询数据表、分组字段名,以及去重字段名;
将所述查询数据表中的数据分配给至少两个数据节点进行分组去重处理,并获取所述至少两个数据节点形成的去重结果;
其中,数据节点用于将分配的数据,按照分组字段名以及去重字段名的字段值存储于多个数据分组表中,为数据分组表中的数据添加行标识,根据所述分组字段名以及所述行标识对数据分组表中的数据进行分组去重,形成去重结果;不同的数据节点执行不同数据分组表的行标识添加操作。
第二方面,本发明实施例提供了一种数据去重处理方法,所述方法应用于集群中的数据节点集合,所述数据节点集合包括至少两个数据节点,所述方法包括:
获取主节点分配的数据,其中,所述分配的数据为所述主节点根据数据查询请求中包括的查询数据表分配的数据,所述数据查询请求中包括查询数据表、分组字段名,以及去重字段名;
将分配的数据按照分组字段名以及去重字段名的字段值存储于多个数据分组表中;
对所述数据分组表中的数据添加行标识;其中,不同的数据节点执行不同数据分组表的行标识添加操作;
根据分组字段名以及所述行标识对数据分组表中的数据进行分组去重,形成去重结果反馈给所述主节点。
第三方面,本发明实施例提供了一种数据去重处理方法,所述方法应用于集群中,所述集群包括主节点和数据节点集合,所述数据节点集合中包括至少两个数据节点,所述方法包括:
主节点获取数据查询请求,所述数据查询请求中包括查询数据表、分组字段名,以及去重字段名;
所述主节点将所述查询数据表中的数据分配给数据节点集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州虎牙信息科技有限公司,未经广州虎牙信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910121676.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置