[发明专利]一种基于深度强化学习的动态虚拟网络功能编排方法有效
申请号: | 202110204246.0 | 申请日: | 2021-02-23 |
公开(公告)号: | CN112887156B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 唐伦;张亚;唐浩;陈前斌 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04L41/0894 | 分类号: | H04L41/0894;H04L41/12;G06N3/04;H04L41/142 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 动态 虚拟 网络 功能 编排 方法 | ||
1.一种基于深度强化学习的动态虚拟网络功能编排方法,其特征在于,该方法具体包括以下步骤:
S1:针对物理网络拓扑动态变化引起的VNF编排成本高的问题,建立时延约束下的最小化VNF编排的资源成本和运行成本的数学模型;
S2:根据网络拓扑动态变化和VNF动态变化,建立MDP模型;
S3:针对MDP模型中状态空间和动作空间过大和网络负载动态变化的问题,设计动态最优的VNF编排策略以解决VNF编排成本高的问题;
步骤S1中,动态VNF编排的网络模型为:
物理基础设施网络用无向图G=(N,L)表示,其中N和L分别代表整个基础设施网络的物理节点集合和链路集合;
设网络中切片的集合为K,一个网络切片中通常包含多个用户业务请求,令Uk表示网络切片k中的用户业务请求集合,此外,令表示网络切片k中的用户u的最大容忍时延,切片k中的用户u对应的所有VNF集合为Fu,k,本模型中将系统的时间维度分为若干个时隙,用表示;
VNF的编排包括以下两个阶段:
第一阶段:确定将VNF和VNF间的虚拟链路映射在哪个物理节点和物理链路上;
令表示时隙t网络切片k中的用户uVNFj映射在物理节点上的动作,其中j∈Fu,k;表示时隙tVNFj映射在物理节点n上;表示时隙tVNFj是利用物理链路l向下一个VNF传输业务流的动作,表示VNFj是利用物理链路l传输数据;
第二阶段:根据每个切片的VNF映射结果为其分配资源,包括为映射在物理节点上的VNF分配计算资源和映射在物理链路上的虚拟链路分配链路带宽资源;用户在时隙t的计算资源分配策略表示为带宽资源分配策略表示为
VNF编排成本由资源成本Cres(t)和运行成本Crun(t)构成,即:
C(t)=η1Cres(t)+η2Crun(t)
其中,η1,η2分别为资源成本和运行成本的权重;
资源成本Cres(t)由计算资源成本Cr,c(t)和带宽资源成本Cr,b(t)构成,即:
Cres(t)=Cr,c(t)+Cr,b(t)
另一方面涉及时延性能指标,考虑传输时延和处理时延,得到端到端时延为:
其中,为传输时延,为处理时延;
所以VNF编排的优化目标是联合优化资源成本和运行成本,优化目标为:
其中,E[·]是求期望;
步骤S2中,建立的MDP模型为:将基础设施网络的拓扑状态ψ和网络中物理节点可用计算资源量和物理链路可用带宽资源量C,B作为状态空间即S=(ψ,C,B);将VNF编排过程作为动作空间为计算资源分配动作空间,表示网络中所有用户的链路资源分配动作空间;系统状态为s(t)下,采取动作a(t)后,系统会获得一个即刻奖励R(s(t),a(t))并转移到系统状态s(t+1),设此状态转移概率为Pr(s(t),a(t),s(t+1));
步骤S3中,采用深度Q网络来求解MDP模型,由最优状态-动作值函数Q*(s,a)得出时隙t的最优VNF编排策略π*(s|a)为:
其中,s′表示状态s的下一个状态,a′表示s′下采取的动作,γ表示折扣因子,策略π是从状态到可能执行的动作的概率的映射,具体表示为在状态π(a|s)为动作的一个概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110204246.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种飞机发动机盘类零件轴承安装加热设备
- 下一篇:驾驶室高度调节方法及装置