[发明专利]数据处理方法、装置、电子设备和存储介质有效

申请号：	202011141922.6	申请日：	2020-10-22
公开（公告）号：	CN112286917B	公开（公告）日：	2022-10-18
发明（设计）人：	刘昕;程强;冯宇波;曹文洁	申请（专利权）人：	北京锐安科技有限公司
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/22
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	100044 北京市海淀区西小口***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种数据处理方法、装置、电子设备和存储介质，通过基于当前计算任务所需的系列数据集中至少两个数据集的大小，对系列数据集进行分批，得到预设数量的子系列数据集，子系列数据集中不同数据集的大小相近，采用多线程同步工具类，对子系列数据集中的数据集进行并行处理，对子系列数据集的处理结果进行存储，通过分批操作和采用多线程同步工具类，在避免了数据倾斜发生的同时，实现了对数据的并行处理，实现了对Spark计算任务的执行过程的优化，提高了Spark计算任务的运行速度。

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种数据处理方法、装置、电子设备和存储介质。

背景技术

Apache Spark(以下简称Spark)是一款强大的基于内存计算的大数据处理引擎，可以实现大数据领域的离线批处理、结构化查询语言(Structured Query Language，SQL)类处理、流式计算、实时计算、机器学习、图计算等各种不同类型的计算操作，并且具有快速、通用、可扩展等优点，所以，具有广泛的应用前景。

很多数据产品或者业务场景下，Spark需要在对海量的数据进行清洗、加工的基础上，再通过计算获得最终的结果数据，由于数据量大、数据量不均衡、集群硬件资源有限等问题，现有技术中，在一些情况下(如发生数据倾斜)，Spark任务的执行速度可能比普通计算引擎还慢，这样就完全体现不出Spark作为一种快速大数据计算引擎的优势。

因此，如何对Spark作业进行性能优化成为现有技术中亟需解决的问题。

发明内容

本申请实施例提供一种数据处理方法、装置、电子设备和存储介质，实现了对Spark的性能优化，提高了Spark的运行速度。

第一方面，本申请实施例提供一种数据处理方法，包括：

基于当前计算任务所需的系列数据集中至少两个数据集的大小，对所述系列数据集进行分批，得到预设数量的子系列数据集，所述子系列数据集中不同数据集的大小相近；

采用多线程同步工具类，对所述子系列数据集中的数据集进行并行处理；

对所述子系列数据集的处理结果进行存储。

可选地，所述基于当前计算任务所需的系列数据集中至少两个数据集的大小，对所述系列数据集进行分批，得到预设数量的子系列数据集，包括：

根据数据集的大小，对当前计算任务所需的系列数据集中至少两个数据集进行排序，确定所述至少两个数据集的顺序；

生成存储所述至少两个数据集的顺序的哈希链表；

根据所述哈希链表中数据集的顺序，按照预设分批条件对所述系列数据集进行分批，得到预设数量的子系列数据集。

可选地，所述采用多线程同步工具类，对所述子系列数据集中的数据集进行并行处理，包括：