[发明专利]一种分布式环境中大数据处理任务的调度方法在审
申请号: | 201710834984.7 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107608777A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 魏小敏 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 孙晶伟 |
地址: | 450008 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 环境 数据处理 任务 调度 方法 | ||
技术领域
本发明公开一种调度方法,涉及大数据处理技术领域,具体的说是一种分布式环境中大数据处理任务的调度方法。
背景技术
Hadoop作为一个处理、存储和分析海量的分布式、非结构化数据的开源框架,具有廉价的处理大数据的能力,能够以—种可靠、高效、可伸缩的方式处理分布式环境下的“大数据”。现在国内外的很多公司都选择使用Hadoop平台来进行大数据方面的相关业务。但是Hadoop在性能方面仍然有很多可提升的空间。同时通过研究Hadoop自身的性能影响因素,如MapReduce作业执行流程的合理性、数据分布、数据本地性及任务调度算法等方面对其进行改进。对任务进行调度时,要尽量提高数据本地性。为了提高MapReduce任务的数据本地性,相关领域的专家提出了延迟调度算法该算法采用“延迟调度”的策略,通过增加一定的等待时间开销来提高任务的数据本地性。然而该算法的前提是假设所有的任务都是短任务,并且对每个任务设置的是统一的静态等待时间阈值,这样的做法降低了算法的复杂度,却存在一些问题:(1)不同长短的任务设置相同的等待时间阈值:在实际应用场景中,不可能满足“所有的任务都是短任务”这一假设,现实情况是既有短任务又有长任务。对于短任务来说,任务本身的执行时间较短,甚至有可能低于任务的等待时间,那么在这种情况下,仍然让任务等待较长的时间,以增加时间开销来片面地追求数据本地化显然是不合理的;而对于长任务来说,任务本身的执行时间就很长,再加上较长的等待时间,会大大延长整体作业的完成时间。(2)不同的网络环境设置相同的等待时间阀值:随着任务的调度,某些节点已无任务所需的本地数据,那么当这些节点空闲时,依照延迟调度算法的策略,只有当一些任务等待的时间超过设定的阀值后,才有可能被调度到这些空闲的计算节点上。当这些无任务所需本地数据的空闲节点得不到超时任务时,就会一直等待下去,从而造成资源的浪费并且增加时间开销,特别是在负载比较大的情况下,有任务本地数据的计算节点不会很快空闲,那么就会导致一方面有很多任务一直在排队等待调度,而另一方面却有部分节点一直处于空闲状态,严重影响作业的完成时间。
本发明提供一种分布式环境中大数据处理任务的调度方法,利用具有更高性能的分布式任务调度算法,针对以上缺陷,对延迟算法进行一些改进,达到提高MapReduce任务调度的数据本地性以及缩短作业的完成时间,减少不必要的时间开销的目的,提高MapReduce任务调度的整体性能。
TCDDS,the Dynamic Delay Scheduling Based on Task Classification,基于任务分类的动态延迟调度算法。
FIFO,First In First Out,先进先出调度算法。
Fuzzy Commprehensive Evaluation Mthod,模糊综合评价法。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种分布式环境中大数据处理任务的调度方法。
一种分布式环境中大数据处理任务的调度方法,在分布式环境中,当任务到达队首时,判断当前空闲的计算节点是否含有队首任务所需要的数据,当前空闲计算节点包含队首任务所需数据,直接将队首任务调度到该节点上,
否则根据任务的动态信息将任务分类,对不同类别的任务设置不同的等待时间阈值,根据任务的类别和等待时间阈值判断该任务是直接调度还是继续等待。
所述的方法中根据任务的动态信息,将任务分成三类:高优先级任务、中优先级任务和低优先级任务,高优先级任务的等待时间阈值为0,低优先级任务在三者中等待时间阈值最长,而中优先级任务的等待时间阈值在高优先级任务与低优先级任务之间。
所述的方法中当前空闲计算节点不包含队首任务所需数据,而队首待调度的任务是高优先级任务,立即调度队首任务,而不再令其等待。
所述的方法中当前空闲计算节点不包含队首任务所需数据,而队首待调度的任务是中优先级任务,则先调度队伍中的其他任务而让队首任务等待,直到含有该任务所需数据的计算节点空闲,立即调度该任务;
或者队首任务的等待时间超过等待时间阈值,则立刻调度队首任务而不再令其继续等待。
所述的方法中当前空闲计算节点不包含队首任务所需数据,而队首待调度的任务是低优先级任务,先调度队伍中的其他任务而让队首任务等待,直到含有该任务所需数据的计算节点空闲,立即调度该任务;
或者队首任务的等待时间超过等待时间阈值,则立刻调度队首任务而不再令其继续等待。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710834984.7/2.html,转载请声明来源钻瓜专利网。