[发明专利]移动边缘网络中基于FDQL的多维资源协同优化方法在审
申请号: | 202111447130.6 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114143891A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 高志宇;王天荆;沈航;白光伟;田一博 | 申请(专利权)人: | 南京工业大学 |
主分类号: | H04W72/08 | 分类号: | H04W72/08;G06N3/04;G06N3/08 |
代理公司: | 南京科阔知识产权代理事务所(普通合伙) 32400 | 代理人: | 苏兴建 |
地址: | 211816 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 移动 边缘 网络 基于 fdql 多维 资源 协同 优化 方法 | ||
1.一种移动边缘网络中基于FDQL的多维资源协同优化方法,在移动边缘计算MEC系统中包括多个基站和一个边缘节点,基站与边缘节点以及邻居基站通信,这些基站和边缘节点具有提供计算和缓存服务的能力;其特征是移动边缘网络中基于FDQL的多维资源协同优化方法的步骤包括:1)构建多维资源分配模型表示频谱和计算源的分配以及缓存更新;2)优化多维资源分配模型;
所述步骤1)中,以最小化平均意见得分MOS为优化目标来构建多维资源分配模型;
MOS模型为:
其中线性模型的参数Cn,1,Cn,2使得MOSn∈[1,5],权重因子wn,1,wn,2分别表示内容获取时延和缓存更新对MOS的影响程度;CAn是第n小区内Un个用户的内容获取时延,它包括传输时延和计算时延;psn是第n小区内Un个用户的内容请求集合中内容流行度之和,基站是根据内容请求集来更新缓存;第n小区为基站n覆盖的范围;
第n个小区的MOSn分数越高,用户体验质量QoE越高,多维资源优化模型为maxMOSn;
所述步骤2)中,
2.1)对底层的基站利用双深度Q学习DDQL进行局部模型训练以获得短周期内最优决策:
2.1.1)以基站n为智能体,将局部资源分配问题建模为一个马尔科夫决策过程MDP;
2.1.2并采用DDQL以不断试错方式与环境交互,通过最大化累计奖赏寻找一个最优策略;
2.2)对上层的边缘节点利用联邦深度强化学习FDQL进行全局模型训练以降低长周期内分布式决策的偏差:
按照时间周期{1,…,t,…,T,T+1,…,t+T,…,2T,…}进行多维资源协同优化;
在t≠kT的短周期内,各基站实施DDQL模型训练来获得本地最优的多维资源分配策略;
在第t=kT个长周期内由边缘节点实施FDQL模型训练来获得全局最优的多维资源分配策略,并反馈给各基站以增强局部DDQL的泛化能力,从而用更优的资源分配策略提升用户内容获取体验。
2.根据权利要求1所述的移动边缘网络中基于FDQL的多维资源协同优化方法,其特征是所述步骤2.1.1)中,马尔科夫决策过程MDP表示为一个四元组<Sn,An,PRn,Rn>,其中Sn表示状态空间,An表示动作空间,PRn表示状态转移概率,Rn表示奖励函数;
状态空间:智能体决定动作选择前需要了解用户和基站的信息,则状态空间Sn由用户请求和基站缓存状态组成;在时隙i,系统状态其中r和c分别表示内容请求和内容缓存,和分别表示第1个和第Un个用户的状态,表示基站n的缓存状态;
动作空间:动作空间为智能体采取的行为集合;行动向量包括通信、计算资源的分配及缓存更新,则动作空间An定义为多维资源协同优化模式:其中表示信道连接矩阵,表示功率分配向量,表示计算单元分配向量,表示更新的内容缓存向量;
奖励函数:当环境处于状态时执行动作系统进入下一个状态并获得即时奖励则设置MOS得分为奖励函数
状态空间Sn到动作空间An的一个映射构成策略π:
当前状态下由策略π采取动作的动作-状态值函数表示为:
其中γ∈(0,1)为折扣因子;
由Bellman equation贝尔曼方程,Q函数的更新为
其中η∈(0,1)是控制学习速度的学习率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学,未经南京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111447130.6/1.html,转载请声明来源钻瓜专利网。