[发明专利]数据排序方法和装置在审

专利信息
申请号: 201610045738.9 申请日: 2016-01-22
公开(公告)号: CN105740332A 公开(公告)日: 2016-07-06
发明(设计)人: 魏国建;王春明;周涛;韦永剑;叶华;张思进 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京英赛嘉华知识产权代理有限责任公司 11204 代理人: 王达佐;马晓亚
地址: 100080 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 排序 方法 装置
【说明书】:

技术领域

本申请涉及计算机领域,具体涉及大数据技术领域,尤其涉及数据排序方法和装置。

背景技术

分布式计算框架Hadoop的Map-Reduce模型被广泛应用于在大数据处理技术中。在利用Map-Reduce模型对数据进行处理时,需要利用Map任务将数据分发到不同的Reduce任务,然后根据数据的数据标识的标识值的大小对数据进行排序和处理,使得经处理后的数据全局有序。目前,通常采用的分发方式为:采集数据的数据标识的标识值,预测整体的数据的数据标识的标识值的分布规律,然后根据分布规律将数据分发给不同的Reduce任务。

然而,当采用上述方式将数据分发给不同的Reduce任务时,存在以下问题:1)当采集的数据为部分数据时,会出现采集到的数据的数据标识的标识值与未被采集到的数据的数据标识的标识值无关联的情况,导致无法准确地的预测出整体的标识值的分布规律,进而无法将数据均匀地分发到各个Reduce任务,降低系统的排序效率,2)当采集的数据为全部数据时,导致系统开销急剧增加,进而降低系统的排序效率。

发明内容

本申请提供了数据排序方法和装置,用于解决上述背景技术部分存在的技术问题。

第一方面,本申请提供了数据排序方法,该方法包括:获取待排序数据和待排序数据的数据标识;执行分发操作:确定数据标识中数据标识的标识值的最大值和最小值;将右端点值和左端点值分别为最大值和最小值的区间划分为多个子区间,其中,每一个子区间满足以下条件:左端点值为其之前的子区间的右端点值,右端点值为其之后的子区间的左端点值;确定每一个待排序数据的数据标识的标识值所属的子区间;生成多个待排序数据集合,每一个待排序集合对应一个子区间;执行排序操作:对待排序数据集合中的待排序数据,根据数据标识的标识值的大小进行排序。

第二方面,本申请提供了数据排序装置,该装置包括:获取单元,配置用于获取待排序数据和待排序数据的数据标识;分发单元,配置用于执行分发操作:确定数据标识中数据标识的标识值的最大值和最小值;将右端点值和左端点值分别为最大值和最小值的区间划分为多个子区间,其中,每一个子区间满足以下条件:左端点值为其之前的子区间的右端点值,右端点值为其之后的子区间的左端点值;确定每一个待排序数据的数据标识的标识值所属的子区间;生成多个待排序数据集合,每一个待排序集合对应一个子区间;排序单元,配置用于执行排序操作:对待排序数据集合中的待排序数据,根据数据标识的标识值的大小进行排序。

本申请提供的数据排序方法和装置,通过获取待排序数据和待排序数据的数据标识;执行分发操作:确定数据标识中数据标识的标识值的最大值和最小值;将右端点值和左端点值分别为最大值和最小值的区间划分为多个子区间;生成多个待排序数据集合,每一个待排序集合对应一个子区间;执行排序操作:对待排序数据集合中的待排序数据,根据数据标识的标识值的大小进行排序。实现了在排序过程中对待排序数据进行均匀地分发,生成的待排序数据集合中的待排序数据的数据标识的标识值之间的差值较小,从而使得在根据数据标识的大小对每一个待排序集合中的待排序数据进行排序时,开销可以近似于相等,进而提升系统的排序效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请可以应用于其中的示例性系统架构图;

图2示出了根据本申请的数据排序方法的一个实施例的流程图;

图3示出了生成多个待排序数据集合的原理图;

图4示出了适用于本申请的数据排序方法的一个示例性架构图;

图5示出了根据本申请的数据排序装置的一个实施例的结构示意图;

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的数据排序方法或数据排序装置的实施例的示例性系统架构100。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610045738.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top