[发明专利]一种基于深度强化学习的虚拟网络映射方法在审
申请号: | 201910527463.6 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110365568A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 曲桦;赵季红;李明霞;石亚娟;王娇;边江 | 申请(专利权)人: | 西安交通大学 |
主分类号: | H04L12/46 | 分类号: | H04L12/46 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 安彦彦 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟网络映射 马尔可夫决策过程 强化学习 映射 物理网络资源 最短路径算法 自适应学习 节点映射 链路带宽 链路映射 请求接受 全局最优 问题建模 虚拟节点 虚拟网络 接收率 算法 能耗 节约 收益 更新 | ||
1.一种基于深度强化学习的虚拟网络映射方法,其特征在于,包括以下步骤:
步骤1,将虚拟网络映射中节点映射问题建模为马尔可夫决策过程;
步骤2,在马尔可夫决策过程基础上,利用DDQN算法进行虚拟节点的映射;
步骤3,利用最短路径算法进行虚拟网络链路映射:
步骤4,更新物理网络资源,包括CPU资源和链路带宽资源。
2.根据权利要求1所述的基于深度强化学习的虚拟网络映射方法,其特征在于,步骤1的具体过程如下:
2.1定义状态集合St
假设在给定状态St中,代理选择一个物理节点映射到虚拟节点然后进入下一个状态St+1,其中是能够承载虚拟节点nv的所有物理节点的集合,是所有未被映射的虚拟节点的集合;t时刻状态集合被定义为:
其中是承载先前虚拟节点的物理节点,在初始状态,没有节点被映射,故
2.2定义动作集合At
代理选择节点的动作At按如下方式定义:
其中ε表示能够到达终端状态的任意动作;当代理选择当前虚拟节点的物理节点时,它转换到下一个状态St+1;
2.3定义状态转移概率矩阵Pr
当处于状态St时,代理选择节点的动作At转换到下一个状态St+1的状态转移可能性被定义为:
2.4定义回报函数R
其中,j表示第j个样本,γ为衰减因子,Q为当前Q网络,Q′为目标Q网络,a′为在当前Q网络中最大Q值对应的动作。
3.根据权利要求2所述的基于深度强化学习的虚拟网络映射方法,其特征在于,步骤2的具体过程如下:
3.1随机初始化所有状态和动作对应的价值Q,随机初始化当前Q网络的所有参数θ,初始化目标Q网络的参数θ′=θ,清空经验回放集合D;
3.2初始化状态集合S为当前状态的第一个状态,得到状态集合S的特征向量,并用表示;
3.3在当前Q网络中使用状态集合S的特征向量作为输入,得到当前Q网络的所有动作对应的Q值输出,在当前Q值输出中选择对应的动作A;
3.4在状态S执行当前动作A,得到新状态S′、特征向量奖励R以及终止状态标志is_end;
3.5将这五元组存入经验回放集合D;
3.6令初始状态S=S′;
3.7从经验回放集合D中采集m个样本计算当前价值Q值yj:
3.8使用均方差损失函数更新当前Q网络的所有参数θ;
3.9重复步骤3.1-步骤3.8多次,如果重复次数达到目标网络的更新频率C,则更新目标网络参数θ′=θ;如果重复次数没有达到目标网络的更新频率C,则继续重复步骤3.1-步骤3.8;
3.10判断终止状态标志is_end是否为终止状态;如果终止状态标志is_end是终止状态,则进行步骤4,否则转到步骤3.2。
4.根据权利要求3所述的基于深度强化学习的虚拟网络映射方法,其特征在于,步骤3.3中,使用ε-贪婪法在当前Q值输出中选择对应的动作A。
5.根据权利要求3所述的基于深度强化学习的虚拟网络映射方法,其特征在于,步骤3.8中,通过神经网络的梯度反向传播更新当前Q网络的所有参数θ。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910527463.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高速数据通信总线自适应匹配方法
- 下一篇:报文处理方法、装置及通信设备