[发明专利]基于Q学习的资源调度方法和装置有效

申请号：	201680056785.1	申请日：	2016-05-24
公开（公告）号：	CN108139930B	公开（公告）日：	2021-08-20
发明（设计）人：	亚伊·阿里安;夏伊·霍罗威茨;郑淼	申请（专利权）人：	华为技术有限公司
主分类号：	G06F9/48	分类号：	G06F9/48
代理公司：	北京龙双利达知识产权代理有限公司 11329	代理人：	时林;毛威
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于学习资源调度方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于Q学习的资源调度方法和装置，能够提高资源调度性能。该方法包括：根据应用的多个状态‑动作组合中的第一状态‑动作组合的回报值，将该第一状态‑动作组合对应的Q值更新为第一数值(S210)，其中，该第一状态‑动作组合表示当该应用处于第一状态时执行第一动作，该第一状态为该应用在早于第一反馈周期的第二反馈周期所处的状态；根据该第一数值，更新该多个状态‑动作组合中的至少一个状态‑动作组合对应的Q值；在当前状态所对应的至少两个状态‑动作组合中，确定具有最大Q值的状态‑动作组合所对应的动作，其中，该当前状态为该应用在该第一反馈周期所处的状态；根据该确定的动作，对分配给该应用的资源数量进行调整处理(S230)。

技术领域

本发明实施例涉及信息技术领域，并且更具体地，涉及基于Q学习的资源调度方法和装置。

背景技术

强化学习(reinforcement learning，又称再励学习，评价学习)是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。所谓强化学习就是智能系统从环境到行为映射的学习，以使奖励值函数的值最大，强化学习中由环境提供的奖励值函数的值是对动作的好坏进行评价，而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，强化学习必须靠自身的经历进行学习。通过这种方式，强化学习在行动-评价的环境中获得知识，改进行动方案以适应环境。而Q学习(Q-learning)方法则是强化学习中最经典的算法之一，是一种与模型无关的学习算法。

数据中心可以基于上述Q学习方法进行应用(Application)的资源调度。在基于Q学习的资源调度方法中，可以确定应用所处的当前状态，从该当前状态的所有候选动作(action)中选择具有最大Q值的目标动作，并执行该目标动作；然后，可以确定在该当前状态下执行该目标动作之后进入的下一状态，根据该下一状态的所有候选动作中的最大Q值，更新该当前状态下该目标动作的Q值。然而，在现有的基于Q学习的资源调度方法中，需要大量的反馈周期才能使得应用的各个状态下的候选动作对应的Q值达到稳定的收敛状态，其中，在收敛状态下，针对Q表中的大多数状态，最大的Q值所对应的动作不再发生改变，也就是说，当Q表达到收敛时，在同样的状态下，可以采取同样的动作。

发明内容

本发明实施例提供一种基于Q学习的资源调度方法和装置，能够提高资源调度性能。

第一方面，提供了一种基于Q学习的资源调度方法，包括：在第一反馈周期，根据应用的多个状态-动作组合中的第一状态-动作组合的回报值，将该第一状态-动作组合对应的Q值更新为第一数值，其中，该第一状态-动作组合表示当该应用处于第一状态时执行第一动作，该第一状态为该应用在早于该第一反馈周期的第二反馈周期所处的状态，该第一动作用于对分配给该应用的资源数量进行调整处理；在该第一反馈周期，根据该第一数值，更新该多个状态-动作组合中不同于该第一状态-动作组合的至少一个状态-动作组合对应的Q值；在当前状态所对应的至少两个状态-动作组合中，确定具有最大Q值的状态-动作组合所对应的动作，其中，该当前状态为该应用在该第一反馈周期所处的状态；在该第一反馈周期，根据该确定的动作，对分配给该应用的资源数量进行调整处理。

可选地，应用在第二反馈周期处于第一状态，并且在第一状态下采取第一动作，则可以根据应用在第一反馈周期所处的当前状态，确定该第一状态-动作组合对应的回报值，并根据该回报值，更新该第一状态-动作组合对应的Q值。

在更新该第一状态-动作组合对应的Q值之后，还可以根据该第一状态-动作组合对应的更新后的Q值，即第一数值，更新该应用的不同于该第一状态-动作组合的至少一个状态-动作组合中每个状态-动作组合对应的Q值，能够提高该Q表的各个状态-动作组合对应的Q值的收敛速度，从而提升基于Q学习的资源调度性能。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司，未经华为技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201680056785.1/2.html，转载请声明来源钻瓜专利网。

上一篇：用于调度多个任务的任务调度装置和方法
下一篇：通过重映射同步来加速任务子图

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Q学习的资源调度方法和装置有效

专利文献下载