[发明专利]一种大规模分布式系统的智能监控与管理方法及系统在审
申请号: | 201811314109.7 | 申请日: | 2018-11-06 |
公开(公告)号: | CN109587217A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 曾令仿;程稳;李春艳;徐洁;邓仕军;蔡苒;桑大邹;王芳;冯丹 | 申请(专利权)人: | 华中科技大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智;曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 调控参数 大规模分布式系统 预测模型 管理方法及系统 分布式系统 反馈信息 智能监控 模型预测 任务调度 任务实现 任务信息 实时调度 实时反馈 智能优选 资源配置 初始化 细粒度 采集 调度 反馈 输出 返回 更新 管理 | ||
本发明公开了一种大规模分布式系统的智能监控与管理方法及系统,包括:S1.任务进入分布式系统时,初始化任务的QoS调控参数;S2.根据QoS调控参数进行任务调度;S3.判断所有任务是否全部运行完成,若是,结束,否则,进入步骤S4;S4.采集分布式系统信息和任务信息,并将其反馈给QoS调控参数预测模型;S5.判断QoS调控参数预测模型是否训练完成,若是,根据反馈信息,使用训练好的模型预测出新的QoS调控参数;否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数;更新任务的QoS调控参数,返回步骤S2。本发明通过智能优选与实时反馈机制相结合,对大规模分布式系统的任务实现了高效实时调度和管理,实现了对任务进行细粒度的资源配置和调度。
技术领域
本发明属于大规模分布式系统技术领域,更具体地,涉及一种大规模分布式系统的智能监控与管理方法及系统。
背景技术
随着互联网的高速发展,人类进入了大数据时代。海量数据需要大规模的并行I/O进行处理,因此大规模分布式系统应运而生,如存储领域的Lustre、Ceph,计算领域的Spark、Hadoop等。然而,在这些大规模分布式系统中大量并发任务可能会因为争用有限的共享的分布式系统的资源,如网络带宽、CPU、内存、磁盘带宽等,而相互影响;尤其是当系统过载时,即任务需求超出分布式系统服务能力,不仅可能会发生I/O拥塞,任务的服务质量(Quality of Service,QoS,如吞吐量、延迟、丢包率等)更是得不到保障。而不同的任务,性能需求不一样,比如有的任务实时性要求高,需要能够被及时处理,而有的任务并不需要快速响应。因此,提供一种合理的资源分配和任务调度方式,满足任务的服务质量是一个具有重要意义和挑战性的工作。
传统地,系统运维人员采用静态方式对其进行监控与管理,这虽然能够取得一定的管理效果,但是在大规模分布式系统中运行着大量的任务,手动控制不仅极其繁琐也很难实现,而且分布式系统中任务运行状况和资源使用情况不断变化,如任务在运行、睡眠、完成状态之间进行转换,从而释放原先占有的分布式系统的系统资源或者需要申请使用新的资源,采用传统静态设置的方式,无法满足任务需求或不能充分利用空闲的分布式系统的系统资源,其有效性、及时性、灵敏度会大打折扣。目前,也有不少针对分布式场景的自动化的管理方案,如EMC公司开发的基于云存储的管理系统CloudIQ、NetApp公司的ActiveIQ等,均可提供有关系统性能、配置的智能分析以及诊断分布式系统安全状况的功能,但这些管理系统主要是监控分布式系统运行状况,管理粒度过粗,并未细粒度的基于分布式系统中任务的运行状况实现任务的实时智能调度,其任务服务质量(QoS)也未能充分得到保障。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有技术传统调控方法未充分保证任务服务质量的技术问题。
为实现上述目的,第一方面,本发明提供了一种大规模分布式系统的智能监控与管理方法,所述方法包括以下步骤:
S1.任务进入分布式系统时,初始化任务的QoS调控参数;
S2.根据任务的QoS调控参数进行任务调度;
S3.判断所有任务是否全部运行完成,如果是,结束,否则,进入步骤S4;
S4.采集分布式系统信息和运行在分布式系统中的任务的信息,并将上述信息反馈给QoS调控参数预测模型;
S5.判断QoS调控参数预测模型是否训练完成,若是,根据反馈信息,使用训练好的模型预测出新的QoS调控参数,并用新的QoS调控参数更新任务的QoS调控参数,返回步骤S2;否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数,并用临时QoS调控参数更新任务的QoS调控参数,返回步骤S2。
具体地,所述QoS调控参数包括将要调度任务标识,以及分配给每个将要调度的任务的资源。
具体地,步骤S2包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811314109.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于4G智能网络的环保设备监测系统
- 下一篇:一种集群选举的方法和装置