[发明专利]一种空天地一体化场景下的服务功能链动态重构方法有效
申请号: | 202211002471.7 | 申请日: | 2022-08-19 |
公开(公告)号: | CN115361288B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 孙永亮;陈沁柔 | 申请(专利权)人: | 南京工业大学 |
主分类号: | H04L41/0833 | 分类号: | H04L41/0833;H04L41/0894;H04L41/12;H04L41/14;H04L41/16;H04L41/40;H04B7/185 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211816 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 天地 一体化 场景 服务 功能 动态 方法 | ||
1.一种空天地一体化场景下的服务功能链动态重构方法,其特征在于,包括以下步骤:
1)读取当前网络状态和已经离开可见范围的卫星节点上需要迁移的虚拟网络功能(Virtual Network Function,VNF)实例的资源需求;
2)将为需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程(MarkovDecision Process,MDP);
3)提出基于近端策略优化(Proximal Policy Optimization,PPO)的深度强化学习框架的服务功能链动态重构算法解决步骤2)中提出的MDP问题,从而最大化可持续服务的服务功能链(Service Function Chain,SFC)数量、最小化时延变化率与网络能耗开销;
4)根据步骤3)中得出的目标节点对每个待迁移实例进行迁移,并更新受影响的SFC的部署决策与时延。
2.根据权利要求1所述的一种空天地一体化场景下的服务功能链动态重构方法,其特征在于,步骤2)中,将为各个需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程,该MDP的状态si∈S可表示为其中,表示网络中每个节点的可用资源,表示网络中每条链路的可用带宽,表示网络的时延矩阵,表示当前需要迁移的实例的资源需求,表示使用了当前需要迁移的实例的SFC集合,表示当前时刻每个节点的持续可用时间,每个实例迁移后获得的奖励r由四个参数决定:
第一个参数是成功迁移的SFC数量,只有节点资源和带宽资源约束都满足的情况下,才视为SFC成功迁移;
第二个参数是SFC的平均时延变化率奖励,dq表示迁移前SFC q的时延,表示迁移后q的时延,q迁移前后的时延的比值为由于迁移后的时延小于迁移前的时延可以提升用户体验,新时延等于旧时延可以维持用户体验不变,因此对drq乘以权重系数,以减小迁移后的时延从而获得更大的奖励值:
其中,k1、k2为设置的时延变化率权重系数,并且k1>k2,将变换后的值相加求平均,得:
其中,Qn(t)表示t时刻使用了已经离开可见范围的卫星节点n上所部署实例的SFC集合,|Qn(t)|表示Qn(t)中SFC的数量;
第三个参数是能耗开销奖励,单个卫星迁移所有实例后引起的能耗开销为Etotal(t),由于高奖励值表示决策合理,而低能耗开销对于环境的负面影响小,并且可以节省网络运营商的运营费用,因此能耗开销奖励与能耗开销成反比关系:
其中,k3为设置的能耗开销权重系数;
第四个参数是SFC的完成数量奖励,判断在SFC的剩余服务时间内,所迁移的目标节点是否无需再次迁移就可以完成该SFC所需的服务,如果可以完成,那么会给予奖励值:
其中,若SFC q在剩余服务时间内无需再次迁移VNF,τq值为1,否则值为0,k4为设置的SFC完成数量权重系数。
3.根据权利要求1所述的一种空天地一体化场景下的服务功能链动态重构方法,其特征在于,步骤3)中,基于PPO的强化学习框架中使用了三层全连接的神经网络提取连续状态空间中的特征,并且在神经网络结构中加入了注意力机制,由于网络节点的可用资源与需要迁移的VNF实例的资源需求密切相关,因此将与在经过一层全连接网络后得到的特征向量作为参与注意力机制运算的特征向量x,注意力机制的计算过程如下:
(1)将特征向量x分别与Wq、Wk、Wv三个权重矩阵相乘,得到yq、yk、yv三个向量;
(2)点乘yq、yk向量,并将计算得出的矩阵除以yk向量的维度
(3)对步骤(2)中得到的矩阵使用softmax归一化,并点乘yv向量,得到线性加权后的输出向量,计算过程如下:
4.根据权利要求1所述的一种空天地一体化场景下的服务功能链动态重构方法,其特征在于,步骤3)中,在基于PPO的强化学习框架中加入了mask操作以过滤无法满足约束的动作;由于卫星的移动性,有一部分卫星节点无法提供服务,并且由于节点资源限制,对于有不同资源需求的待迁移实例,一部分节点也没有充足的资源作为迁移的目标节点,因此将这两类节点的动作的选择概率调整为0,使用mask向量maski(t)记录在t时刻迁移第i个实例时需要过滤的动作,maski(t)可由下式计算:
maski(t)=un(t)+rni. (7)
在maski(t)中,处于可见范围且可用资源满足第i个实例需求的节点所对应的元素为0,否则为1;
un(t)表示t时刻节点的可见性向量,计算公式如下:
un(t)=~(ρ1(t),ρ2(t),...,ρ|N|(t)), (8)
其中,ρi(t),i=1,2,...,|N|表示第i个节点在t时刻是否处于服务区域范围内,N为网络中的节点集合,|N|表示节点的总数,若节点处于服务区域范围内,则值为1,否则值为0,~表示取反操作,该向量将t时刻不在可见范围内的卫星所对应的元素设置为1;
rni表示迁移第i个实例时节点的资源可用性向量,计算公式如下:
rni=(cui,1,cui,2,...,cui,|N|), (9)
其中,cui,j,j=1,2,...,|N|表示第j个节点的可用资源是否满足第i个待迁移实例的资源需求,若不满足资源需求,则值为1,否则值为0;
最后,将神经网络的输出向量y减去mask向量与一个正数的乘积,从而使得y中需要过滤的动作的值远远小于其他动作的值,并使用softmax归一化得出每个节点的选择概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学,未经南京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211002471.7/1.html,转载请声明来源钻瓜专利网。