[发明专利]数据处理方法、装置、电子设备和存储介质有效
申请号: | 202011141922.6 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112286917B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 刘昕;程强;冯宇波;曹文洁 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
本申请实施例提供一种数据处理方法、装置、电子设备和存储介质,通过基于当前计算任务所需的系列数据集中至少两个数据集的大小,对系列数据集进行分批,得到预设数量的子系列数据集,子系列数据集中不同数据集的大小相近,采用多线程同步工具类,对子系列数据集中的数据集进行并行处理,对子系列数据集的处理结果进行存储,通过分批操作和采用多线程同步工具类,在避免了数据倾斜发生的同时,实现了对数据的并行处理,实现了对Spark计算任务的执行过程的优化,提高了Spark计算任务的运行速度。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备和存储介质。
背景技术
Apache Spark(以下简称Spark)是一款强大的基于内存计算的大数据处理引擎,可以实现大数据领域的离线批处理、结构化查询语言(Structured Query Language,SQL)类处理、流式计算、实时计算、机器学习、图计算等各种不同类型的计算操作,并且具有快速、通用、可扩展等优点,所以,具有广泛的应用前景。
很多数据产品或者业务场景下,Spark需要在对海量的数据进行清洗、加工的基础上,再通过计算获得最终的结果数据,由于数据量大、数据量不均衡、集群硬件资源有限等问题,现有技术中,在一些情况下(如发生数据倾斜),Spark任务的执行速度可能比普通计算引擎还慢,这样就完全体现不出Spark作为一种快速大数据计算引擎的优势。
因此,如何对Spark作业进行性能优化成为现有技术中亟需解决的问题。
发明内容
本申请实施例提供一种数据处理方法、装置、电子设备和存储介质,实现了对Spark的性能优化,提高了Spark的运行速度。
第一方面,本申请实施例提供一种数据处理方法,包括:
基于当前计算任务所需的系列数据集中至少两个数据集的大小,对所述系列数据集进行分批,得到预设数量的子系列数据集,所述子系列数据集中不同数据集的大小相近;
采用多线程同步工具类,对所述子系列数据集中的数据集进行并行处理;
对所述子系列数据集的处理结果进行存储。
可选地,所述基于当前计算任务所需的系列数据集中至少两个数据集的大小,对所述系列数据集进行分批,得到预设数量的子系列数据集,包括:
根据数据集的大小,对当前计算任务所需的系列数据集中至少两个数据集进行排序,确定所述至少两个数据集的顺序;
生成存储所述至少两个数据集的顺序的哈希链表;
根据所述哈希链表中数据集的顺序,按照预设分批条件对所述系列数据集进行分批,得到预设数量的子系列数据集。
可选地,所述采用多线程同步工具类,对所述子系列数据集中的数据集进行并行处理,包括:
确定对所述子系列数据集中数据集进行处理所需的线程数和所述多线程同步工具类的初始值;
从线程池中获取与所述线程数匹配的线程;
采用所述多线程同步工具类,控制所述线程对所述子系列数据集中的数据集进行并行处理。
可选地,所述采用多线程同步工具类,对所述子系列数据集中的数据集进行并行处理之前,所述方法还包括:
确定所述子系列数据集的本地化级别;
确定所述子系列数据集中数据集与工作节点的对应关系;
根据所述本地化级别和所述对应关系,对所述子系列数据集中的数据集进行本地化。
可选地,所述采用多线程同步工具类,对所述子系列数据集中的数据集进行并行处理之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011141922.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种作业路线规划方法、装置、无人设备和存储介质
- 下一篇:一种智能油茶机