[发明专利]Q学习中调整状态空间边界的方法和装置有效
申请号: | 201680056875.0 | 申请日: | 2016-12-02 |
公开(公告)号: | CN108476084B | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 夏伊·霍罗威茨;亚伊·阿里安;郑淼 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | H04L1/00 | 分类号: | H04L1/00 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 时林;毛威 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学习 调整 状态 空间 边界 方法 装置 | ||
一种Q学习中调整状态边界的方法,能够提升Q学习算法的算法性能。该方法包括:根据系统在第一时段的第一状态,确定第一状态所在的分段,并确定该分段对应的多个动作中Q值最大的第一动作,每个动作的Q值用于表示执行每个动作后系统可获得的预期收益值(210);执行第一动作,并在执行第一动作后的第二时段,计算执行第一动作后系统获得的实际收益值(220);判断该多个动作中是否存在Q值大于实际收益值的第二动作,若该多个动作中存在Q值大于实际收益值的第二动作,则调整该分段的空间边界(230)。
技术领域
本申请实施例涉及信息技术领域,并且更具体地,涉及Q学习中调整状态空间边界的方法和装置。
背景技术
强化学习(英文全称可以为reinforcement learning)又称再励学习或评价学习,是一种重要的机器学习方法。在智能控制机器人及分析预测等领域有许多应用。所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励值函数的值最大,强化学习中由环境提供的奖励值函数的值是对动作的好坏进行评价,而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少,强化学习必须靠自身的经历进行学习。通过这种方式,强化学习在行动-评价的环境中获得知识,改进行动方案以适应环境。而Q学习(Q-learning)方法是强化学习中的经典算法之一,是一种与模型无关的学习算法。
数据中心集群基于上述Q学习算法对应用(Application)使用的资源进行自适应调度,可以提升数据中心的资源利用率。在现有的基于Q学习的算法中,数据中心通常是根据应用的负载变化情况(或者说,应用的状态)对应用所使用的资源进行调度。而应用的状态大多是通过应用在机器集群中所使用的所有机器的平均资源利用率这一参数进行表征。并且,平均资源利用率这一参数是连续的,而非离散值。现有技术中,为了准确地描述一个应用在各个状态时可采取的候选动作,将原本连续的状态空间进行了离散划分。
但是,将连续的状态空间离散划分,可能造成信息的损失,并导致状态的描述不够准确。从而使得资源调度的结果不甚理想。另外,细粒度的状态空间划分也会使得状态空间过大,导致Q表的收敛速度过慢。
发明内容
本申请提供一种Q学习中调整状态空间边界的方法和装置,能够在加快Q学习算法收敛速度的同时,提升Q学习算法的性能。
第一方面,本申请提供一种Q学习中调整状态空间边界的方法,应用于业务运行系统,该方法包括:根据系统在第一时段的第一状态,确定第一状态所在的分段,并确定该分段对应的多个动作中Q值最大的第一动作,其中,该分段是系统状态的状态值连续取值范围中的一段,每个动作的Q值用于表示执行每个动作后系统可获得的预期收益值;执行第一动作,并在执行第一动作后的第二时段,计算执行第一动作后,系统获得的实际收益值;判断多个动作中是否存在Q值大于实际收益值的第二动作,若该多个动作中存在Q值大于实际收益值的第二动作,则调整该分段的边界。
应理解,第二时段位于第一时段之后。更具体地,第一时段为执行(或者说,采取)第一动作之前所处的时段。第二时段为执行第一动作之后的时段。
将系统的所有状态按照状态值的大小顺序排列(从大到小或从小到大),从中取出连续的一段即为一个分段。
在本申请实施例中,通过对系统的状态所在分段的边界进行调整,使得系统的状态数量减少,加快了Q学习算法的收敛速度,能够提升算法的性能。
在一种可能的实现方式中,若该多个动作中存在Q值大于实际收益值的第二动作,则调整该分段的边界,包括:将该分段的边界调整为第一状态的状态值。
在一种可能的实现方式中,每个状态的属性使用系统的下列参数中的至少一项进行表征:内存利用率、中央处理器CPU的利用率、网络利用率和所使用的机器数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680056875.0/2.html,转载请声明来源钻瓜专利网。