[发明专利]一种数据处理方法及装置有效
申请号: | 201310373788.6 | 申请日: | 2013-08-23 |
公开(公告)号: | CN104424220B | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 黄晓锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 彭琼 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理维度 数据处理单元 待处理数据 数据处理 维度 记录 申请 分发 | ||
本申请公开了一种数据处理方法及装置,包括:取待处理数据记录的至少一个待处理维度的维度数据;并针对每个待处理维度,根据该待处理维度的维度数据,从预先设定的与该待处理维度对应的多个数据处理单元中,选择将要对该待处理数据记录进行处理的数据处理单元;并将该待处理数据记录分发给选择的数据处理单元;以及由选择的数据处理单元对该待处理数据记录的该待处理维度的维度数据进行处理。采用本申请实施例提供的方案,提高了进行数据处理的效率。
技术领域
本申请涉及计算机技术领域中的数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
目前,在计算机技术和互联网技术的实际应用中,经常需要对大量的数据进行统计、聚合计算以及分析等处理,例如,数据求和、数据去重、求取数据最大值以及求取数据最小值等处理。
现有技术中,在对流数据进行处理时,数据源通过消息中间件将数据记录以分批的形式发送到数据处理设备,数据处理设备针对数据记录的待处理维度的维度数据进行处理,并得到该批次数据记录的处理结果,进一步的,还可以将对多个批次数据记录进行处理得到的多个处理结果进行综合累加处理,并将数据记录和最终得到的数据结果存储到数据库中。
在现有技术的上述方案中,数据设备对数据记录的处理是串行进行的,必须等待上一条数据记录被处理完成后,再处理下一条数据记录,并且针对一个批次的数据记录,仅能对一个维度的维度数据进行处理,当需要针对多个数据维度进行处理时,也只能是依次进行的,从而导致对数据处理的效率较低。
发明内容
有鉴于此,本申请实施例提供一种数据处理方法及装置,用于解决现有技术中存在的进行数据处理的效率较低的问题。
本申请实施例通过如下技术方案实现:
本申请实施例提供了一种数据处理方法,包括:
获取待处理数据记录的至少一个待处理维度的维度数据;
针对每个待处理维度,根据该待处理维度的维度数据,从预先设定的与该待处理维度对应的多个数据处理单元中,选择将要对所述待处理数据记录进行处理的数据处理单元;
将所述待处理数据记录分发给选择的数据处理单元;
由选择的数据处理单元对所述待处理数据记录的该待处理维度的维度数据进行处理。
本申请实施例提供的上述数据处理方法中,针对数据记录的不同维度预先设定了对应的数据处理单元,从而使得针对不同维度的维度数据,可以由各维度对应的数据处理单元并行处理,并且,针对每个维度设定了对应的多个数据处理单元,所以可以针对多个待处理数据记录的该维度的维度数据并行处理,从而提高了进行数据处理的效率。
进一步的,根据该待处理维度的维度数据,从预先设定的与该待处理维度对应的多个数据处理单元中,选择将要对所述待处理数据记录进行处理的数据处理单元,具体包括:
确定该待处理维度的维度数据的哈希码;
使用该维度数据的哈希码对与该待处理维度对应的多个数据处理单元的数量取余,得到余数值;
从所述多个数据处理单元中,选择单元ID为所述余数值的数据处理单元,作为将要对所述待处理数据记录进行处理的数据处理单元。
这样,能够根据该待处理维度的维度数据的哈希码,准确地从多个数据处理单元中,选择将要对该待处理数据记录进行处理的数据处理单元。
进一步的,由选择的数据处理单元对所述待处理数据记录的该待处理维度的维度数据进行处理,具体包括:
选择的数据处理单元确定所述待处理数据记录的唯一标识数据的哈希码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310373788.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种产品信息过滤推荐方法和装置
- 下一篇:一种自定义提取目录内容的方法和装置