[发明专利]一种基于强化学习的频谱资源和计算资源联合分配方法有效

专利信息
申请号: 202010318864.3 申请日: 2020-04-21
公开(公告)号: CN111556572B 公开(公告)日: 2022-06-07
发明(设计)人: 刘芳芳;冯春燕;商晴庆 申请(专利权)人: 北京邮电大学
主分类号: H04W72/04 分类号: H04W72/04;G06K9/62;H04W72/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 频谱 资源 计算 联合 分配 方法
【权利要求书】:

1.一种基于强化学习的频谱资源和计算资源联合分配方法,具体步骤如下:

步骤1:建立URLLC与eMBB用户共存的MEC系统模型

基站gNB被MEC服务器覆盖,该系统中有Ke个eMBB用户和Ku个URLLC用户,用户集合分别为Uu和Ue,每个用户均有待计算任务;ξ指示用户类型,若为URLLC用户则ξ=u,若为eMBB用户则ξ=e,任务数据量大小为卸载决策表示任务进行卸载计算,表示任务进行本地计算;为用户的时延约束,超过此阈值则丢包;

步骤2:以URLLC用户和eMBB用户时延和能耗的总成本最小化并保证URLLC时延约束为原则,构建成本函数优化问题

首先,表征URLLC用户和eMBB用户的无线传输速率和

其中W是子载波带宽,和分别是URLLC用户和eMBB用户的发射功率,Φ是SNR损耗系数,N0是单边噪声频谱密度,是Q函数的逆函数,和是瑞利衰落,和为路径损耗,为URLLC用户的解码错误概率,为用户k与gNB间距离,其中,

然后,表征URLLC用户和eMBB用户的时延,本地计算时延为:

其中为处理该任务所需的计算能力,卸载计算时延为是卸载时延,是计算时延,分别表示为:

其中为MEC服务器为用户分配的计算资源,为任务所需的计算资源;

接下来,表征URLLC用户和eMBB用户的成本函数,本地计算能耗为:

k0为能耗因子,与设备本身硬件相关,卸载计算能耗为:

其中为基站gNB发射功率,用户k时延和能耗的成本表示为:

MEC系统中所有URLLC用户和eMBB用户时延和能耗的总成本表示为:

因此,将MEC系统中URLLC用户和eMBB用户的成本优化模型建立为:

第一个限制条件C1表示二进制卸载,用户的任务只能本地计算或者完全卸载;第二个限制条件C2表示URLLC用户的时延约束;第三个限制条件C3表示系统中的总频谱资源约束,第四个约束条件C4表示MEC服务器处的总计算资源限制;第五个约束条件C5表示用户的实际发射功率受到最大发射功率限制;

步骤3:建立URLLC用户与eMBB用户频谱资源和计算资源联合分配的强化学习模型

Q学习算法的学习过程可建模为离散状态马尔科夫决策过程通过五元组<S,A,P,R,η>来描述,其中S是环境状态集合,A是动作空间,P是状态转移概率,R是回报函数;MEC系统中的URLLC用户和eMBB用户作为多个智能体,然后根据策略π从动作空间A中选择一个动作a,即URLLC用户和eMBB用户选择占用的频谱资源和计算资源比例;执行动作a后,URLLC用户和eMBB用户将得到一个回报r,所有用户根据回报调整策略π,以获得更高的回报;在分布式Q学习算法的学习过程中,每个智能体单独维护一张Q值表,根据自己的准则进行动作选择,并根据回报函数R调整更新自己的Q值表,这样Q值表的总体维度为|Ku+Ke|·|S|·|A|,算法复杂度低于集中式算法;各智能体在进行学习时不需要与彼此发生信息交互,减少了系统开销;智能体的回报函数由所有智能体的动作协同决定,分布式Q学习算法可以获得整体最优解,选用分布式Q学习算法来求解URLLC与eMBB业务的频谱资源和计算资源联合分配的最优解;

步骤4:利用历史通信数据对上述模型进行训练,获得频谱资源和计算资源分配最佳策略;

(4-1)初始化蜂窝小区、基站、URLLC用户和eMBB用户通信链路;

(4-2)初始化所有智能体的策略模型π;

(4-3)初始化最大循环迭代次数itermax

(4-4)初始化当前迭代次数iter←0;

(4-5)所有URLLC用户和eMBB用户智能体基于策略π选择动作a,即频谱资源比例和计算资源比例,统计所有智能体的回报函数,更新Q值表;

(4-6)iter←iter+1,仿真平台更新环境,基于策略π选择新动作a';

(4-7)返回从(4-5)执行,直至iter=itermax,得到最优策略π*

(4-8)结束;

步骤5:根据训练得到的频谱资源和计算资源联合分配策略,URLLC用户与eMBB用户进行分布式地频谱资源和计算资源占用比例选择,方法结束;

(5-1)初始化蜂窝小区、基站、URLLC用户和eMBB用户通信链路;

(5-2)所有URLLC用户与eMBB用户根据策略π*,选择频谱资源和计算资源的比例;

(5-3)结束。

2.按照权利要求1所述方法,其特征在于,步骤3中建立分布式强化学习模型,包含多智能体设计、状态空间设计、动作空间设计、回报函数设计、Q值更新准则设计和动作选取准则设计,具体设计如下:

多智能体设计:MEC系统中所有的URLLC用户和eMBB用户;

状态空间设计:将整个系统作为与智能体发生交互的环境,由于最优化问题未涉及环境状态的变化,为单状态环境,因此,环境状态在Q学习过程中不发生改变,但回报函数值跟随智能体动作发生改变进而引起Q值表发生更新;

动作空间设计:每个智能体均有一个动作空间合Ak,需要分配频谱资源和计算资源两种资源,且Q学习的动作空间必须有限,需要将两种资源离散化;如果选择卸载计算,频谱资源动作空间为共N1个动作;计算资源动作空间为共N2个动作;如果选择本地计算,则动作空间为1;因此,整体动作空间维度为|SB|·|SF|+1,各智能体的整体动作空间表示为共有N1·N2+1个动作,若智能体选择动作ai,j,若ai,j=a0,0,表示本地计算资源,不占用频谱和MEC服务器的计算资源;若ai,j≠a0,0表示卸载计算,则表示占用频谱资源比例为计算资源比例为

回报函数设计:根据优化目标,设计回报函数需要同时考虑系统总成本、URLLC用户严格的时延约束、以及系统频谱资源和计算资源的约束,将回报函数Rk(s,a)设计为:

其中s为本次迭代的环境状态,根据策略π从动作空间Ak中选择一个动作a执行,URLLC用户和eMBB用户将得到一个回报Rk(s,a),当智能体k选择的动作满足所有的约束条件时,则会得到正回报1/Θ,时延和能耗的总成本越小获得的回报越大;反之,当智能体k选择的动作导致约束条件无法满足,会得到负回报,即各智能体采取该组动作会受到惩罚,应尽量避免该动作策略;

Q值更新准则:智能体获取回报函数后会对Q值表做出更新,不同于单智能体Q学习和集中式Q学习算法,分布式Q学习算法只在新的Q值大于当前Q值时发生更新,否则Q值保持不变,即:

其中为当前状态Q值,为下一状态Q值,由于环境状态s、s'不发生改变,上式简化为:

动作选取准则:在完成Q值更新后,各智能体需要利用动作选取准则获取下一步的动作;本方法选用ε贪婪策略作为动作选取准则,对于智能体k来说,首先预设常数ε∈[0,1],然后生成动作随机数xk∈[0,1],然后将xk与ε进行比较,如果xk<ε,则从动作空间Ak里随机选取动作作为下一个动作;否则,选取Q值表中最大值对应的动作作为下一个动作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010318864.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top