[发明专利]一种基于深度强化学习的多资源服务功能链调度方法有效

专利信息
申请号: 202211258257.8 申请日: 2022-10-14
公开(公告)号: CN115562832B 公开(公告)日: 2023-04-07
发明(设计)人: 赵来平;何瑞;陈胜;周钰雯 申请(专利权)人: 天津大学
主分类号: G06F9/48 分类号: G06F9/48;G06F9/50;G06N3/0464
代理公司: 北京保识知识产权代理事务所(普通合伙) 11874 代理人: 刘元
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 资源 服务 功能 调度 方法
【权利要求书】:

1.一种基于深度强化学习的多资源服务功能链调度方法,其特征在于,具体包括以下步骤:

S1、获取每个用户的请求,将每个请求抽象为服务功能链形式;接着获取服务器的数量,用二元组表示每个服务器上的资源,定义为:(cpumem),其中,cpumem分别表示服务器拥有的CPU资源和内存资源数量;

S2、将S1中所得的多资源服务功能链调度转化为强化学习问题,根据强化学习问题构建深度强化学习模型;其中,所述强化学习问题转化具体包括以下内容:

S2.1、状态表示:包括SFC的完成情况和服务器资源的使用情况;假设有k个服务器{S1S2,……,Sk}和r个服务功能链{f1f2,……,fr};系统状态定义为:state(t)=[S(t),F(t)];其中,S(t)=[s1(t),s2(t),……,sk(t)],表示每个服务器的状态;F(t)=[f1(t),f2(t),……,fr(t)],代表每个SFC状态;

S2.2、动作集合:确认要选择的服务器和服务功能链;通过从环境中观察到的当前状态state(t)=[S(t),F(t)],首先将其输入到神经网络,所述神经网络为带有隐藏层的全连接神经网络,其中,输入层接收服务器和服务功能链的状态向量,输出层输入一个维数为k*r的向量,表示选择每个动作的概率;

S2.3、奖励函数:强化学习的目标是在可靠性策略下,在满足用户需求的同时最小化平均作业完成时间;当基于强化学习的方法用于实现多资源服务功能链调度时,要求积累的奖励与服务功能链调度的目标一致,即,当agent获得的奖励增加时,相应的平均作业完成时间减少,基于此,设置奖励为在每个时间间隙完成的服务功能链个数的相反数;

S3、对S2中所得的模型进行训练,具体包括以下内容:

S3.1、向模型中输入k个服务器和r个服务功能链的具体资源信息;

S3.2、初始化策略网络的参数、学习率、折扣率和训练的轮数;

S3.3、对于每一轮训练,取样一个完整轨迹对智能体进行训练;当所有服务功能链被调度完成,轨迹即终止;

S3.4、训练过程中,若选择到一个无效的动作时,用一个有效动作进行替代;基于PG算法记录一个三元组,利用缓存中三元组计算每个状态的返回值G;

S3.5、收集了完整的轨迹之后,计算得出智能体所经历的所有状态的回报G;直接利用所得的G或对其进行数据归一化后来完成学习;

S3.6、每轮训练结束时,计算策略梯度损失;将其看作多分类任务,把每个状态的回报看作权重,据此更新网络的参数,开启下一轮训练;

S4、根据S3的训练结果得到一个动作序列,后面直接使用该动作序列训练的模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211258257.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top