[发明专利]数据排序方法和装置在审
申请号: | 201610045738.9 | 申请日: | 2016-01-22 |
公开(公告)号: | CN105740332A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 魏国建;王春明;周涛;韦永剑;叶华;张思进 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 排序 方法 装置 | ||
技术领域
本申请涉及计算机领域,具体涉及大数据技术领域,尤其涉及数据排序方法和装置。
背景技术
分布式计算框架Hadoop的Map-Reduce模型被广泛应用于在大数据处理技术中。在利用Map-Reduce模型对数据进行处理时,需要利用Map任务将数据分发到不同的Reduce任务,然后根据数据的数据标识的标识值的大小对数据进行排序和处理,使得经处理后的数据全局有序。目前,通常采用的分发方式为:采集数据的数据标识的标识值,预测整体的数据的数据标识的标识值的分布规律,然后根据分布规律将数据分发给不同的Reduce任务。
然而,当采用上述方式将数据分发给不同的Reduce任务时,存在以下问题:1)当采集的数据为部分数据时,会出现采集到的数据的数据标识的标识值与未被采集到的数据的数据标识的标识值无关联的情况,导致无法准确地的预测出整体的标识值的分布规律,进而无法将数据均匀地分发到各个Reduce任务,降低系统的排序效率,2)当采集的数据为全部数据时,导致系统开销急剧增加,进而降低系统的排序效率。
发明内容
本申请提供了数据排序方法和装置,用于解决上述背景技术部分存在的技术问题。
第一方面,本申请提供了数据排序方法,该方法包括:获取待排序数据和待排序数据的数据标识;执行分发操作:确定数据标识中数据标识的标识值的最大值和最小值;将右端点值和左端点值分别为最大值和最小值的区间划分为多个子区间,其中,每一个子区间满足以下条件:左端点值为其之前的子区间的右端点值,右端点值为其之后的子区间的左端点值;确定每一个待排序数据的数据标识的标识值所属的子区间;生成多个待排序数据集合,每一个待排序集合对应一个子区间;执行排序操作:对待排序数据集合中的待排序数据,根据数据标识的标识值的大小进行排序。
第二方面,本申请提供了数据排序装置,该装置包括:获取单元,配置用于获取待排序数据和待排序数据的数据标识;分发单元,配置用于执行分发操作:确定数据标识中数据标识的标识值的最大值和最小值;将右端点值和左端点值分别为最大值和最小值的区间划分为多个子区间,其中,每一个子区间满足以下条件:左端点值为其之前的子区间的右端点值,右端点值为其之后的子区间的左端点值;确定每一个待排序数据的数据标识的标识值所属的子区间;生成多个待排序数据集合,每一个待排序集合对应一个子区间;排序单元,配置用于执行排序操作:对待排序数据集合中的待排序数据,根据数据标识的标识值的大小进行排序。
本申请提供的数据排序方法和装置,通过获取待排序数据和待排序数据的数据标识;执行分发操作:确定数据标识中数据标识的标识值的最大值和最小值;将右端点值和左端点值分别为最大值和最小值的区间划分为多个子区间;生成多个待排序数据集合,每一个待排序集合对应一个子区间;执行排序操作:对待排序数据集合中的待排序数据,根据数据标识的标识值的大小进行排序。实现了在排序过程中对待排序数据进行均匀地分发,生成的待排序数据集合中的待排序数据的数据标识的标识值之间的差值较小,从而使得在根据数据标识的大小对每一个待排序集合中的待排序数据进行排序时,开销可以近似于相等,进而提升系统的排序效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2示出了根据本申请的数据排序方法的一个实施例的流程图;
图3示出了生成多个待排序数据集合的原理图;
图4示出了适用于本申请的数据排序方法的一个示例性架构图;
图5示出了根据本申请的数据排序装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的数据排序方法或数据排序装置的实施例的示例性系统架构100。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610045738.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双折点感载比例阀
- 下一篇:充电式车用热风机
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置