[发明专利]一种虚拟网络资源的部署方法和系统有效
申请号: | 202111249185.6 | 申请日: | 2021-10-26 |
公开(公告)号: | CN113992520B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 王华;花梦圆;刘小慧 | 申请(专利权)人: | 山东大学 |
主分类号: | H04L41/0826 | 分类号: | H04L41/0826;H04L41/0893;H04L41/08;G06N20/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 朱忠范 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 虚拟 网络资源 部署 方法 系统 | ||
1.一种虚拟网络资源的部署方法,其特征在于,包括:
获取虚拟网络资源相关数据;
依据获取的虚拟网络资源相关数据和预设的虚拟网络资源部署模型,得到虚拟网络资源的部署方案;
其中,所述虚拟网络资源部署模型在弹性通信网络中,以最小化部署成本和最小化信息年龄为优化目标,采用自适应的深度强化学习模型得到帕累托最优解,进行虚拟网络资源的部署;
所述信息年龄,指描述信息的新鲜度,是捕获状态更新随机性的指标;
采用自适应的深度强化学习模型得到帕累托最优解包括:
通过更新参数u来使Q函数逼近最优Q值,Q-Learning的更新公式如下:
Q*(s,a)=Q(s,a)+α(r+γmaxa′Q(s′,a′)-Q(s,a))
其中,u为网络参数;s为智能体的状态;a为智能体下一步所采取的动作,α为一个范围在(0,1)之间的常量,表示发生的概率;r为在s状态下采取a动作所带来的回报;γ为折扣因子;a′为智能体在s状态后的下一步的动作;s′为选择下一步动作a′得到新的一个状态;maxa′Q为采取动作a′后所能得到的最大动作价值;
损失函数如下:
L(u)=E[(TargetQ-Q(s,a;u))2]
目标为:
TargetQ=r+γmaxa′Q(s′,a′;u)
求L(u)关于u的梯度,更新网络参数u;把每个时间步智能体与环境交互得到的转移样本储存到回放记忆单元,用于训练;用Q(s,a;ui)表示当前网络MainNet的输出,用来评估当前状态动作对的值函数,ui为损失函数L(u)的自变量,是MainNet的网络参数,也是Q(s,a;u)函数中的自变量;Q(s,a;u-i)表示TargetNet的输出,代入求TargetQ值的公式中得到目标Q值,u-i为损失函数L(u)的自变量,是TargetNet的网络参数,也是Q(s,a;u)函数中的自变量;根据损失函数更新MainNet的参数,每经过k轮迭代,将MainNet的参数复制给TargetNet,最后再将结果给帕累托近似解NR,得到所需部署虚拟节点解集。
2.如权利要求1所述的一种虚拟网络资源的部署方法,其特征在于,所述的弹性通信网络包括环境可感知、万物可互联、能力可调整、属性可变化和容量可伸缩特征。
3.如权利要求1所述的一种虚拟网络资源的部署方法,其特征在于,所述自适应的深度强化学习模型,将深度学习与强化学习结合,实现从感知到动作的端到端的算法。
4.如权利要求1所述的一种虚拟网络资源的部署方法,其特征在于,所述帕累托最优解,是指在最小化部署成本和最小化信息年龄多目标背景下,在变量空间中不存在其他解优于帕累托最优解。
5.如权利要求1所述的一种虚拟网络资源的部署方法,其特征在于,进行虚拟网络资源的部署包括:
获取网络拓扑图,确定虚拟网络节点和虚拟链路的数量;
初始化帕累托近似解为空集,初始化智能体的状态,根据虚拟网络节点上的部署成本、到达每个虚拟网络节点的信息年龄和定义的两个常量,确定优化目标函数;
采用自适应的深度强化学习模型得到帕累托最优解,进行虚拟网络资源的部署。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111249185.6/1.html,转载请声明来源钻瓜专利网。