[发明专利]一种基于改进Q学习算法的多目标云资源调度方法在审
申请号: | 201910807351.6 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110515735A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 李成严;孙巍;宋月 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资源调度 多目标 用户满意度 动作选择 仿真平台 权重因子 随机生成 优化目标 运行成本 自动更新 最优策略 启发式 虚拟机 云计算 运营商 算法 寻优 收敛 改进 优化 学习 | ||
本发明提供了一种基于改进Q学习算法的多目标云资源调度方法。该方法通过Agent与环境进行不断交互,学习得到最优策略。本发明通过Cloudsim云计算仿真平台,随机生成不同任务和虚拟机,以同时优化任务的完成时间和运行成本为优化目标,设计一种基于改进Q学习算法的多目标云资源调度方法,采用自动更新权重因子的启发式动作选择策略加快Q学习算法的收敛速度,同时提高算法的寻优能力,以提高云资源的利用率,提高用户满意度,降低运营商成本。
技术领域
本发明涉及云资源调度领域,具体涉及一种基于改进Q学习算法的多目标因资源调度方法。
背景技术
云资源调度是指根据资源使用规则,不同的资源使用者按照规则在云服务平台进行资源调整的过程。合理的资源调度优化算法对于提高云计算系统的综合性能是至关重要的。调度中的QoS约束包括运行成本、完成时间、安全性、可用性等。在实际需求中,成本约束和完成时间分别是影响运营商和使用者满意度的关键因素,将减少执行时间和降低运行成本同时作为优化目标对于调度算法来说是必不可少的。因此,本发明使用以同时优化执行时间与运行成本为目标的多目标云资源调度模型。
强化学习作为一种与模型无关的具有学习能力的非监督式智能搜索算法,在云资源调度问题上具备较好的学习效果,因此尝试使用强化学习算法解决云资源调度问题。其中,Q学习算法对于解决云资源调度问题表现更稳定,但是会存在状态空间大,收敛速度慢等问题,为提高算法收敛速度,本发明将权重因子与启发式函数相结合,依据Agent每次训练后的立即回报值,自动更新不同动作执行后的权重因子,从而确定动作选择策略,提高算法收敛速度。
发明内容
为了解决云资源调度问题,本发明公开了一种能够减少任务执行时间,降低系统运行成本并将算法收敛速度、运行效率以及寻优能力纳入考虑范围的调度方法。
为此,本发明提供了如下技术方案:
1.一种基于改进Q学习算法的多目标云资源调度方法,其特征在于,算法通过Agent与环境的交互进行学习,Agent通过动作选择策略选取动作,同时更新Q表,更新状态,迭代上述步骤直到Q表达到收敛,Agent得到最优策略。具体包括:
定义状态空间:状态空间由不同的状态s构成,由一个动态数组表示,其中状态s用一维数组表示,s的下标表示任务序号,s的值表示虚拟机序号。比如5个任务分配3台虚拟机,则是一个5个元素的整形数组,每个元素的值表示任务分配到哪个虚机上执行。
定义动作空间:将动作定义为整型变量,当执行将第i个任务分配给第j台虚拟机这一动作时,则将整型变量j赋值给状态s数组中第i个值。例如一维数组[1,0,0,2,1],则表示第0个任务分配给1号虚拟机,第1个任务分配给0号虚拟机……
定义立即回报:r=ω*(Etc-Ti)+(1-ω)*(Cst-Ci),其中,Ti和Ci分别表示当前状态下第i台虚拟机已经分配的任务的总执行时间和执行任务的总成本。Etc和Cst都表示较大常数,此处将Etc设置为所有任务在所有虚拟机上的总执行时间,Cst设置所有任务在所有虚拟机上的总成本。
定义Q值更新公式为:其中,α∈(0,1),表示学习速率。γ表示折扣因子;Qt表示t时刻的Q值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910807351.6/2.html,转载请声明来源钻瓜专利网。