[发明专利]数据处理的方法及装置在审

专利信息
申请号: 202010881197.X 申请日: 2020-08-27
公开(公告)号: CN114116790A 公开(公告)日: 2022-03-01
发明(设计)人: 龚陈继;杨仲凯;崔宝龙;翁凯玲 申请(专利权)人: 华为技术有限公司
主分类号: G06F16/2455 分类号: G06F16/2455;G06F16/2458;G06F16/182
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 张翠华
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据处理 方法 装置
【说明书】:

本申请公开了一种数据处理的方法及装置,用以解决分析耗时长、效率低的问题。主节点在选择执行各个任务的节点时,既结合节点的磁盘的数据分布情况,还结合各个节点缓存中的数据分布情况,来确定执行各个任务的节点。执行任务的节点复用缓存中的数据,从而降低从磁盘读取数据导致的IO开销,并且从缓存读取数据的时延小于从磁盘读取数据的时延,缩短节点执行任务过程中读取数据的耗时,进而提高数据分析效率。另外,缓存数据的利用率较高,防止重复的从磁盘读取数据以及由于频繁的更新读取的数据导致的缓存空间不足,而导致的数据落盘行为。

技术领域

本申请涉及信息技术领域,尤其涉及数据处理的方法及装置。

背景技术

大数据分析是通过海量数据分析,挖掘数据的内在关联,为产业提供分析依据。比如,通过分布式并行、并发处理实现海量数据的分析。大数据分析任务需要处理该任务的所有相关数据,数据量庞大且耗时长,因此分析系统在接收任务后,不会直接执行,而是解析任务内容制定一个执行计划保障大数据的分析性能,而非简单直接读取数据处理。

通过任务的关联数据在磁盘的分布情况确定任务的执行计划,但是,由于系统存储的数据量庞大,获取关联数据在磁盘的分布情况所占用的输入输出(input/output,I/O)开销大且影响正常业务处理过程,分析过程耗时长、效率低,无法满足大数据分析效率要求。因此,如何提供一种高效的数据处理方法成为亟待解决的技术问题。

发明内容

本申请提供一种数据处理的方法及装置,用以解决分析耗时长、效率低的问题。

第一方面,提供一种数据处理的方法,该方法可以由大数据分析系统中的主节点来实现,比如由主节点中的芯片或者芯片系统来实现。主节点也可以称为管理节点。以主节点执行数据处理的方法为例。主节点获取到第一作业的第一任务后,按照预设规则选择执行该第一任务的第一节点。该第一作业是大数据分析中的一个完整任务,可以由主节点从客户端接收该第一作业。第一作业中的第一任务是第一作业分解获得的多个任务中的任意一个任务。进一步,主节点选择到执行第一任务的第一节点后,向该第一节点发送该第一任务。本申请实施例中的预设规则用于指示节点中可复用的数据和第一任务待处理的数据的关联关系,比如,可复用的数据可以是节点中的缓存中的数据,由于节点执行任务时从磁盘中读取数据相比从缓存中读取数据较长,通过复用节点的缓存中的数据,结合缓存中的数据来选择节点,能够减少节点执行任务过程中读取数据的耗时,进而提高数据分析效率。另外,缓存数据的利用率较高,防止重复的从磁盘读取数据以及由于频繁的更新读取的数据导致的缓存空间不足,而导致的数据落盘行为。

在一种可能的实现方式中,主节点按照预设规则选择执行第一任务的第一节点时,可以通过如下方式来实现,根据节点缓存中的数据与第一任务待处理的数据关联的可复用数据来选择执行第一任务的第一节点。大数据分析系统中的各个节点,在执行其它任务过程中会从磁盘读取各个任务所需的数据到缓存中,某节点缓存中存在与第一任务待处理的数据存在关联关系的数据分片,比如,某节点的缓存中包括与第一任务所需的一个或多个数据分片,主节点为第一任务选择节点时,结合节点缓存中存在的第一任务所需的数据分片来选择第一节点。由于第一节点的缓存中存在第一任务所需的一个或者多个数据分片,从而第一节点执行第一任务时,无需再从磁盘读取缓存中已经存在的第一任务所需的一个或者多个数据分片,进而减少节点执行任务过程中读取数据的耗时,提升数据分析效率。

在另一种可能的实现方式中,主节点按照预设规则选择执行第一任务的第一节点时,还可以通过如下方式实现:主节点可以先根据多个节点中数据分布情况和第一任务待处理的数据的关联关系筛选出第二节点集合,该第二节点集合包括至少一个节点。第二节点集合包括的至少一个节点的磁盘和/或缓存中存在与第一任务待处理的数据存在关联数据的可复用数据。进一步地,主节点根据所述第二节点集合中节点执行所述第一任务的计算开销在所述第二节点集合中选择一个节点作为所述第一节点。该实现方式中,先结合节点的磁盘和/或缓存中的数据分布情况筛选出一个或者多个节点,进而再结合筛选出的节点执行第一任务的计算开销来选择第一节点,减少计算开销所产生的耗时,提升数据分析效率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010881197.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top