[发明专利]一种数据处理方法和装置在审

专利信息
申请号: 201310597967.8 申请日: 2013-11-22
公开(公告)号: CN104657388A 公开(公告)日: 2015-05-27
发明(设计)人: 吕春建 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京国昊天诚知识产权代理有限公司 11315 代理人: 许志勇
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据处理 方法 装置
【说明书】:

技术领域

本申请涉及计算机处理领域,更具体地涉及一种数据处理方法和装置。

背景技术

当今大数据时代,数据的收集与处理技术发展迅猛,计算机收集的数据的数量巨大,用于存储数据的数据库表的记录项数量过亿、甚至过百亿。其中,每个记录项可以用于存储一个或多个数据。该数据可以是数值。若要分析并挖掘这些数据(数值)的价值,通常第一步,利用计算机对这些数据(数值)进行运算或处理以探查数据的分布情况。

在传统的探查数据分布过程中,进行数据处理时需要通过多次扫描数据库表,用以分别计算出与数据库表中包含的数据相关计算结果,例如:均值、最大值、最小值、方差、标准差、分位数、众数等等。进一步,可以通过这些计算结果分析数据的分布情况,进而用以实施后续的数据挖掘等。

具体而言,在计算相关结果的过程中,至少需要扫描5次数据库表中的数据。比如说,①计算数据的均值、最大值、最小值时,需要全表扫描1次数据库表中的数据。②在计算数据的方差、标准差时,需要全表扫描1次数据库表中的数据。③在计算分位数之前,至少需要全表扫描1次数据库表中的数据。具体的,在采样数据库表中的部分数据时,扫描0至1次数据库表中的数据(如,0.1次)。进而根据采样出的数据,划分出一个或多个连续的数据区间,每个数据区间表示一个数值范围,如:[0,5],[6,7],[8,9]。根据该数据区间划分的结果,可以采用map-reduce的方法,对数据库表中的数据进行排序。而在对数据进行排序时,map模块负责全表扫描1次数据库表中的所有数据,以确定每个数据所处的数据区间,一个或多个reduce模块中的每一个reduce模块负责一个数据区间内的数据的排序。由于一个或多个数据区间是连续的,最终可以将处于每个数据区间内的数据的排序结果合并,以得到所有数据的排序结果。④在计算分位数时,需要扫描1次或多次排序后的数据库表中的数据,以得到一个或多个分位数。⑤在计算众数时,至少需要全表扫描1次数据库表中的数据。具体的,通过扫描1次数据库表中的数据分析出具有相同值的数据在所有数据中的重复次数,再通过扫描0至1次每个数据的重复次数(如,0.1次),得到重复次数最多的数据(众数)。可见,传统的数据处理在运算中,为计算得到需要的结果,对数据库表几乎要做5次或更多次的全表的扫描。其运算量巨大。

并且,随着技术发展,计算机、网络等技术运用到各个行业,在数据库表中存储记录的数据量也越来越巨大,已有的数据处理技术,在运算中会多次扫描数据库表中的所有数据,导致计算机IO极高。其中,IO是指计算机从外围设备(磁盘、网络、磁带等)读取数据到内存时所读取的数据量。进一步地,在对数据库表中的数据进行排序时,也会由于过高的计算量,排序记录项多且数据量大,如前述计算分位数时全表整体排序的情形,会降低计算机的运算效率。更进一步地,若数据库表中的数据的值集中在某个数据区间内即数据倾斜严重,会导致负责该数据区间的reduce设备需要排序的数据量过大,增加数据处理时长,甚至无法得到计算结果。再进一步地,在计算分位数时,每次只能计算一个分位数,若想要计算多个分位数,只能通过多次扫描遍历排序后的数据,这样,在运算上,计算机开销大。

发明内容

为了克服在对大量数据进行处理时,计算机IO高,计算效率低的缺陷,本申请的主要目的在于提供一种数据处理方法和装置,以解决提高计算机数据处理过程中的运算性能、提高计算效率的问题。

本申请提供的方案,进一步地,还能克服计算机运算量过大且值过于集中而造成的运算效率低,数据处理时间长或者无法得到计算结果的缺陷,解决提高运算效率缩短数据处理时长的问题;更进一步地,还能够克服由于数据量大造成的计算机读取数据开销大的缺陷,解决节省计算机读取数据开销的问题。

为了解决上述技术问题,本申请的目的是通过以下技术方案实现:

一种数据处理方法,包括:扫描存储于数据库表中的一个或多个数据;基于所述扫描,对所述一个或多个数据中的重复数据进行计数,确定每个所述重复数据的计数值;根据所述每个重复数据和所述每个重复数据的计数值,计算与分析数据分布相关的结果。

其中,所述数据库表记录一个或多个记录项,一个记录项表示一条记录,数据库表中的每行记录,记录每个记录项;每个所述记录项包括一个或多个数据项,数据库表中的每列记录,记录每个不同的数据项;每个数据项存储每个记录项中对应该数据项的数据;其中,所述数据为数值;基于所述扫描,对所述一个或多个数据中的重复数据进行计数,包括:对所述数据库表的一个或多个数据项中的一个数据项所存储的相同的数据进行计数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司;,未经阿里巴巴集团控股有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310597967.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top