[发明专利]面向大数据平台基于内存数据局部性的调度方法及系统在审
申请号: | 201610057234.9 | 申请日: | 2016-01-27 |
公开(公告)号: | CN105740068A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 王佳琪;孙毓忠;宋莹 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 数据 平台 基于 内存 局部性 调度 方法 系统 | ||
技术领域
本发明涉及大数据处理分布式计算任务调度领域,特别涉及面向大数据平台基于内存数据局部性的调度方法及系统。
背景技术
大数据时代,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长,大数据计算平台是针对海量数据的处理而产生的分布式计算系统(如图1所示),可以将用户作业(用户提交的一项工作的基本单位)分成不同的任务(用户作业的一部分工作)同时执行加快作业执行速度,当作业所在计算节点与其数据数据节点不同时会导致并发作业产生大量的并发读写操作,平台网络带宽因大规模数据搬运而导致高度拥塞,进而导致作业因数据获得不及时而大量延误。
对任务调度的方法不合理可能会导致任务执行时间的延长,从而增加整个作业的执行时间,因此如何能够使任务在调度时快速读取所需数据,从而减少任务执行时间是最大化利用数据局部性原则和优化任务调度算法的关键问题之一。
为此,大量研究集中在如何调度任务,减少任务执行时读取数据时间,从而降低任务执行时间,其中,数据局部性是重要的方法之一,现有大数据计算平台的数据局部性包括三级,分别是节点局部性、机架局部性和数据中心局部性。
发明一种面向Hadoop的动态调度方法,提供一种面向大数据计算平台的动态调度方法,这个发明可以有效地解决现有调度算法在调度实时作业上响应时间方面的不足,并对实时作业进行资源控制,以此提高实时作业效率的能力,从而达到用户精细控制作业执行速度的功能。该发明仅仅解决了实时作业响应时间慢的问题,而本发明通过内存数据局部性加快了任务的执行速度。
发明一种Hadoop调度法的优化方法,公开了一种大数据计算平台调度法的优化方法,属于计算机软件及并行计算技术领域,这篇发明的一种大数据计算平台调度法的优化方法和现有技术相比,具有的有效果是:对任务各阶段的权值进行调整,根据不同的作业进行不同权值的设置,使其更接近真实值,能够帮助更准确地计算任务的进度值、进程速率与预计剩余完成时间。该发明仅仅对于任务本身的执行进度和剩余部分进行后续任务调度,而没有考虑到任务的数据分布情况。本发明通过加入根据内存数据调度,加快了任务执行速度和调度响应时间。
上面几种方法都是在针对任务本身进行优化,针对不同任务执行速度不同,对落后的任务进行加速,使得没有某一任务远远落后于其他任务,从而降低了作业整体执行速度,并没有考虑到从内存中读取数据的速度要远高于磁盘读取速率,通过减少数据读取时间,加快任务执行速度,这使得不仅在节点选择方式上进行了改变,同时也改变了资源申请的策略,从而通过另外一种方式对任务的执行时间进行了加速。
发明内容
针对现有技术的不足,本发明提出面向大数据平台基于内存数据局部性的调度方法及系统。
本发明提出一种面向大数据平台基于内存数据局部性的调度方法,包括:
步骤1,周期性获取数据节点内存中缓存的数据块,并周期性向存储管理节点汇报所述数据节点的内存数据块信息;
步骤2,获取用户提交的作业,计算节点对所述作业进行分片,当所述计算节点填写作业分片信息时,将所述内存数据块信息写入所述作业分片信息中;
步骤3,所述计算节点根据所述作业分片信息创建待执行任务,为所述待执行任务进行资源申请请求,所述计算节点根据所述资源申请请求,将资源节点分配给所述待执行任务。
所述步骤1包括所述存储管理节点收到各所述数据节点发送的所述内存数据块信息,将各所述数据节点的所述内存数据块信息进行汇总,保存在所述存储管理节点的内存中。
所述步骤2包括用户提交作业,计算节点根据用户输入的文件路径,向所述存储管理节点请求文件所包括数据块的位置;
所述存储管理节点根据所述文件路径,查找与所述文件路径相对应的文件,并查看所述文件与数据块的对应关系,并根据数据块的内存数据块信息查询数据块在内存中缓存节点位置,将包括起始位置、长度、磁盘节点位置、缓存节点位置的内存数据块信息返回给所述计算节点;
所述计算节点根据所述缓存节点位置,以及大数据计算平台配置文件,创建作业分片信息,将所述缓存节点位置写入作业分片信息。
所述步骤3包括所述计算节点读取作业分片信息,根据作业分片数量创建对应数量的所述待执行任务;
根据所述待执行任务所需的内存中缓存节点位置,创建对应的资源申请请求,并发送给所述存储管理节点请求资源。
所述步骤3还包括所述计算节点收到分配的资源节点,检查资源所在节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610057234.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种优化的相变存储器体系结构
- 下一篇:一种数据处理方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置