[发明专利]基于深度强化学习的端到端网络切片资源分配方法有效
申请号: | 202010349221.5 | 申请日: | 2020-04-28 |
公开(公告)号: | CN111683381B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 朱晓荣;李泰慧 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04W24/02 | 分类号: | H04W24/02;H04W24/06;H04W28/16;H04W72/02;H04W72/53 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 秦秋星 |
地址: | 210046 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 端到端 网络 切片 资源 分配 方法 | ||
1.基于深度强化学习的端到端网络切片资源分配方法,其特征在于,包括如下步骤:
步骤1:建立端到端切片系统的问题模型P1;
步骤2:初始化切片资源分配方案,根据各基站分配到的资源求解问题模型P1,得到此时系统的最大接入率;
步骤3:以步骤2求解求得的最大接入率作为DQN网络的奖励值,利用DQN网络进行资源动态调整,得到最优的资源分配方案,求解最优方案下的接入率;
步骤1中,所述问题模型P1为:
其中,基站表示为N={1,2,....,|N|},切片表示为M={1,2,....,|M|},所有用户表示为U={1,2,....|U|},切片m下的所有用户表示为Um,切片m下的具体一个用户表示为um,用户u接入基站n则xu,n等于1,否则为0;用户um对映的服务链p在核心侧映射成功则等于1,否则为0;Nnum表示用户u接入基站n所需要的最小资源块数量,Am,n表示切片m分配给基站n的资源大小;接入侧速率约束切片,最低速率表示为接入侧延迟约束切片,最大延迟表示为服务链p的第i个功能映射在物理节点j则等于1,否则为0;fi表示服务链的第i个节点所需要的功能;表示切片m中物理节点j所含有的虚拟网络功能k的数量;表示服务链p是否占用物理节点j1和j2之间的链路,占用为1,不占用为0;表示切片m中物理节点j1和j2之间的带宽;表示切片m中物理节点j1和j2之间的传输带宽;表示服务链p的带宽约束,表示服务链p的时延约束;
步骤2中,初始化切片m分得资源Am为:
L表示总带宽分为L份,T表示每一份由T个子帧组成;则切片m分配给基站的带宽资源计算如下:
对于速率约束切片Nnum等于Nv,对于延迟约束切片Nnum=Nt;
对于速率约束型用户,假设用户um占用基站n的一个资源块RB,表示信道增益,σ表示噪声的频谱密度,Bl表示频率域每个RB的带宽,P表示用户的传输功率;则用户占用一个RB可获得的速率表示如下:
在基站n上传输的用户,需要的RB数量为Nv;
对于时延约束型的用户,假设用户的数据包到达速率为λu,数据包的长度为Lu比特,则在利用Nt个RB传输时,算出此时的平均时延为
需要满足时延要求需要的最少RB数量为Nt,则有:
步骤2求解问题模型P1的步骤包括:
将问题模型P1解耦成接入侧和核心侧两个子问题,使两个子问题用户容量最大;
A.接入侧子问题
接入侧的目标函数和约束可解耦为两个切片单独的目标函数和约束;速率约束型切片表示如下,时延约束型只需将速率约束改为时延约束;解耦的接入侧问题P2如下:
上述子问题属于NP-Hard问题,采取动态背包算法进行求解,包括以下步骤:
1)输入切片分配给基站的资源Am,n,基站和用户位置信息;
2)对于所有的基站采取0-1背包算法选定基站接入用户;
3)被多个基站选择的用户,选择需要Nnum最少的基站接入;
4)没有接入的用户重复上述步骤2)、3),一直到基站没有资源或用户全部接入;
B.核心侧子问题
核心侧对每一种切片可解耦成子问题P3如下:
上述问题求解过程包括如下步骤:
1)输入接入侧用户基站选择结果,核心侧网络拓扑信息;
2)对于速率约束切片,按照带宽要求对服务链进行排序,对于时延约束切片,按照时延要求对服务链进行排序,得到每种切片的服务链集;
3)每条服务链映射前,先将网络拓扑图中不满足带宽要求的边去掉;
4)服务链映射采取逐个点映射,初始点由用户选择的基站确定,对于速率约束切片根据公式:对下一个进行评估,选择评估值大的作为下一个点;
5)对于时延约束切片根据公式:对下一个进行评估,选择评估值大的作为下一个点;
6)服务链映射结束,判断时延是否满足要求,满足则映射成功;
7)按照上述步骤4)-7)依次对每类切片按照服务链集的顺序进行服务链映射;一直到服务链映射完成;
8)计算成功完成端到端服务链映射的用户总人数;
评估函数中vi′∈V′指含有下一功能的所有候选节点,hopi是使用Dijkstra算法计算的到候选节点的最短跳数;delayi是使用Dijkstra算法计算到候选节点的最短时延,Bi表示最短跳数的剩余平均带宽,reci表示候选节点剩余功能数量;
步骤3的具体步骤包括:
1)初始化DQN网络的参数,基站用户信息,核心侧拓扑信息;
2)计算初始资源分配Am,n代入P1求解得到端到端映射结果,根据端到端映射结果得到DQN初始状态Rm,Sm,Rm表示切片m中接入侧成功接入的概率大小,Sm表示成功实现端到端接入的用户相对接入侧成功接入的用户的比值;
3)利用贪心策略选择一个行为at,行为at定义为切片的资源增加或是减少的百分比,上标t表示时刻;
4)更新下一个时刻的资源分配代入P1求解达到端到端映射结果,从而得到下一个时刻的状态和当前的奖励rt;
5)将存储到经验池;
6)如果存储资源次数达到迷你资源池的倍数,从经验池中选取迷你资源池大小的数据对DQN网络的当前值Q网络进行训练和参数更新;
7)训练次数达到某个时间周期,则将当前值Q网络复制给目标值网络;
8)对上述步骤2)-7)进行迭代,一直到网络收敛;
所述DQN网络的参数包括:
状态:定义Sm如下:
行为:定义为切片的资源增加或是减少的百分比,是一组离散的小数,其中负数表示分配给切片m资源增加,0表示切片资源不变,正数则表示资源增加;
a=[-10%,-8%,-6%,-4%,-2%,0,2%,4%,6%,8%,10%]
奖励:奖励定义为系统总的接入率
Q值的更新:采取贝尔曼等式进行Q值更新,其中γ∈[0,1]表示折扣因子,表达式如下:
下一个状态:动作执行完后切片资源更新为将切片的资源分散到基站确定求解最优化问题P1,算出此时的奖励函数;和下一个状态的Rm,Sm;
资源更新:执行完动作首先需要进行切片级资源更新如下
所有切片按照上式进行切片资源调整,调整的结果可能超过系统总资源,需要将资源在此基础上进行归一化如下,这样便保证资源总和保持不变;
切片级资源更新完成就需要将切片资源再反馈到各基站上,同样定义切片m用户在基站n的相对接入成功率如下式
则当切片资源增加时,更新后切片分配到各基站的无线资源如下式
至此执行完动作之后切片级和基站级的资源更新就完成了,利用分得的资源带入最优化问题P1,将资源分配到用户,并实现整个端到端的用户资源分配;得到奖励函数,和下一时刻
Q网络结构:Q网络为一个前向反馈的神经网络,网络的输入为切片的状态,输出为各种动作选择下的状态动作对Q值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010349221.5/1.html,转载请声明来源钻瓜专利网。