[发明专利]一种数据处理方法、电子设备和计算机可读存储介质有效
申请号: | 201910584834.4 | 申请日: | 2019-07-01 |
公开(公告)号: | CN110442574B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 谢超;盛江红;易小萌;郭人通 | 申请(专利权)人: | 上海赜睿信息科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/242;G06F16/2453 |
代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋 |
地址: | 200030 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 电子设备 计算机 可读 存储 介质 | ||
本发明实施例公开了一种数据处理方法、电子设备和计算机可读存储介质,通过将原始数据表分为多个数据段,并根据获取的原始数据表的特征信息初始化多个哈希表,多线程并行处理多个数据段以获取数据处理结果并根据数据处理结果更新所述多个哈希表,合并多个哈希表以获取数据分组聚合结果,由此,本发明实施例通过多线程并行处理原始数据表的多个数据段,并通过哈希表的结构对数据处理结果进行分组聚合,提高了数据分组聚合运算的效率。
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种数据处理方法、电子设备和计算机可读存储介质。
背景技术
在目前的大数据背景下,数据分析需求极大。其中,对数据进行聚合是很多数据分析中的重要步骤。一般来说,数据聚合就是将一些数据按照特定数据项进行分组,如年龄、专业、或者收入等数据项。例如,一个站点销售音乐CD,它可能会基于用户的年龄来将用户分组,然后得到不同年龄的音乐爱好。在数据库的应用中,为了从一张数据表中的大量数据中提取出具有某些具有特征性的数据,最常用的就是对表格数据分组,并对分组后的数据执行相应的运算,例如求每一组的最大值、平均值等信息。
通常情况下,在数据库中执行分组聚合操作涉及的数据量大,现有方法通常采用CPU处理器来进行处理,耗费时间长,数据处理效率低。
发明内容
有鉴于此,本发明实施例提供了一种数据处理方法、电子设备和计算机可读存储介质,以提高数据分组聚合运算的效率。
第一方面,本发明实施例提供一种数据处理方法,所述方法包括:
获取原始数据表的特征信息;
将所述原始数据表分为多个数据段;
根据所述特征信息初始化多个哈希表,其中,所述哈希表用于存储对应的数据段的数据处理结果;
多线程并行处理所述多个数据段以获取数据处理结果;
根据所述数据处理结果更新所述多个哈希表;以及
合并所述多个哈希表以获取数据分组聚合结果。
可选的,根据所述特征信息初始化多个哈希表包括:
根据所述特征信息确定哈希表的长度;以及
根据所述哈希表的长度建立多个空哈希表。
可选的,所述特征信息包括所述原始数据表的至少一个数据项,所述数据项包括至少一个数据项值。
可选的,根据所述特征信息确定哈希表的长度包括:
计算所述数据项值的组合的数量与预设的可变因子的乘积以确定所述哈希表的长度。
可选的,在所述特征信息中的数据项的数量为1时,所述数据项值的组合包括一个数据项值,所述数据项值的组合的数量为所述数据项中的数据项值的个数;
在所述特征信息中的数据项数量大于1时,所述数据项值的组合中包括每个数据项中的一个数据项值,所述数据项值的组合的数量为每个数据项中的数据项值的个数的乘积。
可选的,多线程并行处理所述多个数据段以获取数据处理结果包括:
将加速处理器中的多个线程分为多个线程组,各所述线程组分别包括至少一个线程;
各所述线程组并行处理对应的数据段以获取所述数据处理结果。
可选的,各所述线程组并行处理对应的数据段以获取所述数据处理结果包括:
同一线程组中的不同线程并行处理对应的数据段以获取所述对应的数据段的数据处理结果。
可选的,根据所述数据处理结果更新所述多个哈希表包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海赜睿信息科技有限公司,未经上海赜睿信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910584834.4/2.html,转载请声明来源钻瓜专利网。