[发明专利]一种基于深度强化学习的多资源服务功能链调度方法有效
申请号: | 202211258257.8 | 申请日: | 2022-10-14 |
公开(公告)号: | CN115562832B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 赵来平;何瑞;陈胜;周钰雯 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06N3/0464 |
代理公司: | 北京保识知识产权代理事务所(普通合伙) 11874 | 代理人: | 刘元 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 资源 服务 功能 调度 方法 | ||
本发明公开了一种基于深度强化学习的多资源服务功能链调度方法,属于深度强化学习及资源调度技术领域;本发明利用深度强化学习解决多条服务功能链上多种资源调度的问题,提出了一种深度强化学习方法来解决资源调度问题,本发明将多资源的服务功能链调度问题转化为一个强化学习问题,构建了强化学习所需要的交互环境,然后又给智能体设置了一个与优化目标(即平均作业完成时间最短)相匹配的奖励函数,最后得到一个满意的SFC调度方案。通过实验结果表明,DRL方法可以显著减少平均作业完成时间,相对于随机方法,DRL方法可以最多节约39.937%的时间。
技术领域
本发明涉及深度强化学习及资源调度技术领域,尤其涉及一种基于深度强化学习的多资源服务功能链调度方法。
背景技术
调度是当今生产和生活中非常重要的一部分,而作业车间问题(Job shopProblem,JSP)是最基本和最重要的调度问题。前人已经做了大量的研究并且证明JSP是一个NP-hard问题,已经证明没有多项式时间的解决方案。对于大多数的SFC调度可以抽象为一个JSP问题,我们需要按照一定的顺序来调度每个SFC。传统的启发式算法在解决JSP问题上并没有很多优势。对于不同的场景需要具体分析,有时人类专家需要花费大量的精力来设计合适的解决方案。
对于组合优化问题大多数属于NP-hard问题,传统的数学优化方法目前很难求到精确解。组合优化问题大多数情况下都涉及到决策顺序,即序贯决策问题,例如对于旅行商问题就是决定以什么顺序访问每一个城市,例如对于车间调度问题就是决定以什么顺序在机器上加工工件。对于本文提出的多资源SFC调度问题抽象出来也是一种特殊的Job Shop的生产调度问题。而强化学习天生就是做序列决策用的,组合优化问题里边的序列决策问题完全也可以用强化学习来直接求解,建模为马尔可夫决策过程并进行求解,在求解复杂、动态、随机的运筹优化问题具有较大的优势,关键的难点就是我们如何定义智能体所获得的奖励以及环境中的状态。
多资源SFC调度问题是一个马尔可夫决策过程,我们只需要知道每台服务器当前的资源使用情况,而不需要知道过去是如何分配资源的。所以,我们可以根据当前的状态采取有利于我们的行动。针对上述问题,本发明提出了一种利用深度强化学习为多条服务功能链进行多资源调度的方法。
发明内容
本发明所解决的技术问题是:在某一时刻有个r用户发出请求,每个用户的服务功能链(SFC)都是不一样的,并且启动每一个VNF实例所消耗的资源也不一样,现在假设我们有k个完全一样的server,我们需要决定如何把这些服务器上的资源分配给这些用户,使得平均作业完成时间最小。
为了解决上述问题,本发明采用了如下技术方案:
一种基于深度强化学习的多资源服务功能链调度方法,具体包括以下步骤:
S1、获取每个用户的请求,将每个请求抽象为服务功能链形式;接着获取服务器的数量,用二元组表示每个服务器上的资源,定义为:(cpu,mem),其中,cpu、mem分别表示服务器拥有的CPU资源和内存资源数量;
S2、将S1中所得的多资源服务功能链调度转化为强化学习问题,并构建深度强化学习模型;
S3、对S2中所得的模型进行训练;
S4、根据S3的训练结果得到一个动作序列,按照所得的动作序列可以得到较好的调度方案,后面也可以直接使用这个训练出来的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211258257.8/2.html,转载请声明来源钻瓜专利网。