[发明专利]数据处理方法、装置及计算机设备在审

专利信息
申请号: 202110755957.7 申请日: 2021-07-05
公开(公告)号: CN113392131A 公开(公告)日: 2021-09-14
发明(设计)人: 李文博 申请(专利权)人: 上海幻电信息科技有限公司
主分类号: G06F16/2453 分类号: G06F16/2453;G06F16/2455;G06F16/27
代理公司: 北京英特普罗知识产权代理有限公司 11015 代理人: 邓小玲;王勇
地址: 200120 上海市浦东新区中国(上海)*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据处理 方法 装置 计算机 设备
【说明书】:

本申请公开了一种数据处理方法、装置及计算机设备,该方法包括:获取待处理的目标数据集;根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;将所有计算节点输出的已标记数据去除标识码并进行存储。本申请还提供一种计算机可读存储介质。本申请通过标识码的方式将目标数据集的数据进行划分,并将划分后的数据分别输入到不同的计算节点进行数据处理,从而能够有效地均衡了计算节点上执行数据处理的数据量,提升了数据处理效率。

技术领域

本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及计算机设备。

背景技术

随着物联网、云计算和网络带宽等技术的高速发展,移动终端等智能设备得到了广泛的应用,网络上各个类型的数据都呈海量式增长。目前业内针对海量数据的处理,通常采用分布式计算的架构,在数据处理过程中,为提高数据处理的效率,常规的优化方案主要采用横向扩展计算节点规模,来实现提升数据处理并行度,降低每个节点处理的数据量。然而,在将待处理数据发送到计算节点进行处理的过程中,各个计算节点的数据量分配往往并不均匀,从而导致计算节点压力负载不均衡,部分节点资源无法得到充分利用,导致数据处理整体效率下降。

发明内容

本申请提出一种数据处理方法、装置及计算机设备,能够解决上述的计算节点负载的数据量不均衡所导致的数据处理效率低的问题。

首先,为实现上述目的,本申请提供一种数据处理方法,所述方法包括:

获取待处理的目标数据集;根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;将所有计算节点输出的已标记数据去除标识码并进行存储。

在一个例子中,所述根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,包括:根据所述计算节点的数量生成预设数量的标识码;将所述预设数量的标识码的每一个标识码对所述目标数据集中的均衡数量的数据进行标记。

在一个例子中,所述根据所述计算节点的数量生成预设数量的标识码,包括:生成与所述计算节点的数量相等或在所述计算节点的数量的预设波动范围内的数量的随机正整数作为标识码。

在一个例子中,所述根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,包括:将所述标识码以前缀或后缀的方式添加到所述目标数据集中的每一个数据中。

在一个例子中,当所述目标数据集中的数据为(key,value)类型数据时,所述将标识码以前缀或后缀的方式添加到所述目标数据集中的每一个数据中,包括:将标识码添加到所述目标数据的key字段。

在一个例子中,所述将所有计算节点输出的已标记数据去除标识码并进行存储,包括:根据key值对已标记数据集中的数据进行一次聚合,得到第一数据集;将所述第一数据集中的每一个数据的标识码去除;根据key值对去除标识码后的所述第一数据集中的数据进行二次聚合,得到第二数据集,并存储到预设存储单元。

在一个例子中,在执行所述一次聚合或所述二次聚合的过程中,当多个数据聚合成一个目标数据时,将所述多个数据的数量标记到所述目标数据。

此外,为实现上述目的,本申请还提供一种数据处理装置,所述装置包括:

获取模块,用于获取待处理的目标数据集;标记模块,用于根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;处理模块,用于根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;存储模块,用于将所有计算节点输出的已标记数据去除标识码并进行存储。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海幻电信息科技有限公司,未经上海幻电信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110755957.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top