[发明专利]一种面向大数据应用的云计算资源调度方法在审
申请号: | 201711437160.2 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108170532A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 周红卫;周博;吴昊;张晓洲;王钟沛 | 申请(专利权)人: | 江苏润和软件股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210012 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离线训练 云计算资源 大数据 批处理 调度 大规模数据 成本效益 动态规划 关键特征 基础数据 日志分析 数据规模 贪心算法 资源规划 作业分配 作业集中 离线 应用 抽取 三维 抽象 反馈 学习 | ||
发明涉及一种面向大数据应用的云计算资源调度方法。自动为作业集中的每个作业分配合适的资源。发明由离线训练和反馈调整两个阶段组成。对于离线学习,由于大规模数据的类型有限,并且每类作业对应的数据规模又比较稳定,所以通过离线训练中的日志分析抽取作业的基础数据可以很好地描述作业的关键特征。基于离线训练,我们可以建立成本效益模型,并由此抽象出一个三维动态规划问题继而使用贪心算法可以获得最优的资源规划。对于一个全新的批处理作业,发明需要做的仅仅是对该单一新作业进行离线训练。
技术领域
本发明涉及一种面向大数据应用的云计算资源调度方法,属于软件技术领域。
背景技术
由于虚拟化环境具有更好的可靠性,更强的可管理性和更高的整体性能,使得混合物理集群和虚拟集群普遍被各大云服务提供商使用。虽然随着虚拟化感知硬件的引入,虚拟化开销持续降低,但在虚拟集群中执行批处理作业时,性能仍然受到严重影响。但是,如果我们在纯物理集群中处理所有批处理作业,则其资源利用率将受到严重影响,导致大量资源浪费。为了更好地利用物理集群和虚拟集群,以提高Map-Reduce资源利用率和混合集群的整体性能,增强整个集群的作业处理能力,我们应适当地为每个作业分配混合集群中的资源。目前已有的研究工作大致可以分为以下三类:其一,通过对Hadoop本身的优化来提高对资源的利用率;其二,通过利用部署在同一个混合环境下交互式应用的空闲资源来提高全局资源利用率;其三,整合以上两种方案后的优化方案。
如今,许多大型互联网公司每天都从不同的工作负载生产大量数据,为了让这些数据能更好地用于统计分析,这些数据将被放到混合集群中进行统计分析,以实现更好的产品设计,提高垃圾邮件和欺诈检测能力和增加宣传效应等。许多现有的研究工作都集中关注如何处理一些通用的情况,忽略了这类数据在规模和类型上总是相似和稳定的事实。对于第一类方案:通过对Hadoop本身的优化来提高对资源的利用率,这类方案存在两个明显的问题:Hadoop框架的定制化,针对优化的单一性忽视各个作业间存在的资源竞争关系。对于Hadoop框架的定制是一个极具挑战性的工作,需要对Hadoop底层有比较深入的研究。首先需要对所有批处理作业本身的特性进行深入分析,同时还需要对集群所在物理环境有深刻理解并进行调整,整个工作具有极大的挑战性和不可再现性。优化的单一性会使得单个作业的资源利用率在给定条件下得到明显的提升,但是目前发明面对的问题是如何提高整个混合集群的资源利用率。在这个大前提下,所有待处理的批处理作业都需要进行考虑,同时还需要考虑每个单一作业本身的特性,只有这样才能获得全局的最优解。对于第二类优化方案,他们的侧重点是在保证交互式任务不受过度影响的前提下进行空闲资源的利用而不是以充分挖掘所有可用资源为目标。虽然资源利用率提高了,但是结果一定不是最优的,因为他们的策略始终受限于交互式任务,只有交互式任务的资源得到满足的情况下才会进行批处理作业调度。此外大部分的研究工作都只是单纯地考虑利用交互式任务的空闲资源并没有考虑批处理作业本身之间的关系,这也造成了和第一类方案类似的局部优化问题。至于第三类综合性优化策略,该类优化是针对作业集在混合集群中的通用优化策略,没有考虑批处理作业本身对不同类型集群的偏好同时没有充分利用作业的已知性。为了更好地处理这种情况,充分利用混合集群特性和作业已知性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏润和软件股份有限公司,未经江苏润和软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711437160.2/2.html,转载请声明来源钻瓜专利网。