[发明专利]一种基于深度强化学习的MEC任务卸载和资源分配方法有效

申请号：	202110882738.5	申请日：	2021-08-02
公开（公告）号：	CN113612843B	公开（公告）日：	2022-08-30
发明（设计）人：	钱志鸿;张菁;王雪;向长波;张继真;谢明桐;刘水	申请（专利权）人：	吉林大学
主分类号：	H04L67/10	分类号：	H04L67/10;H04L41/0894;H04L41/14;H04L47/78;G06N20/00
代理公司：	北京华际知识产权代理有限公司 11676	代理人：	俞璇
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习 mec 任务卸载资源分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的MEC任务卸载和资源分配方法，其特征在于，包括以下步骤：

S1：在移动边缘计算场景下，构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型，并初始化系统参数；

所述构建基于移动边缘计算的三层计算卸载与资源分配模型具体步骤为：

在系统模型中，首先假设所有用户均在准静态环境下，计算任务调度运行过程中保持调度决策不变；每个用户可以选择将其部分计算任务卸载到云服务器，余下的留在本地完成；或部分计算任务卸载到移动边缘计算服务器，余下的留在本地完成；或者一部分任务通过D2D链路卸载到边缘设备，一部分在本地完成；也可以自己执行任务，执行选项依次为云执行、MEC卸载执行、D2D卸载执行和本地执行；

设接入终端设备集合I＝{1,2,...,n,...,N}，任务数据大小D_n，X_n表示处理任务的平均计算复杂度，以周期/位度量，也是处理每一位数据需要执行的时钟周期数；T_n,max表示设备最大容忍时间的限制；其中X_n参数可以从算法的复杂性中得到；设D2D执行任务比例α_n，MEC执行任务比例β_n，云执行任务比例γ_n，本地执行任务比例为1-α_n-β_n-γ_n，且满足α_nβ_nγ_n＝0,

S2：针对三层的卸载场景，计算系统总体开销；

所述计算系统总体开销具体步骤为：

在用户选择本地卸载时，设为本地计算能力，k_n是与设备有关的常量，计算能耗基本与CPU频率成正比；因此本地执行时间为能耗为

当D2D卸载执行时，设表示从设备n上传任务到空闲设备的数据传输速率，B_d表示D2D链路带宽，P_n和P_k表示设备n和设备k的传输功率；考虑瑞利衰落环境，h_n表示设备之间的信道增益，N₀是高斯白噪声；根据香农公式，上行速率为其中，若α_n＞0则取1，因此，传输时延为传输能耗为设表示D2D的计算能力，则计算时延为计算能耗为k_d是与硬件有关的常量；因此，D2D执行时间为执行能耗为

MEC执行时，设MEC的CPU资源总数F_max，基站总传输带宽为B_max，设备分配CPU周期数分配带宽为满足而MEC执行卸载时延可分为三部分，传输时延、等待时延和计算时延；传输时延为其中h_n,m为设备n到MEC服务器的信道增益；设MEC中任务缓冲队列容量L，根据排队论中的Little法则，平衡条件下，任务在MEC服务器等待的平均时间为系统的平均等待队长除以任务的平均进入率；队列中等待时间为其中N_j为在第j个时隙内的全部任务数，N_j-L在为在该时隙内的排队任务总数，t个时隙内统计在MEC处等待的任务数任务的平均进入率传输能耗为计算时延为计算能耗为k_m是与硬件有关的常量；则

云执行时，设每个用户的计算任务和计算结果通过核心网带来的时延总和均为定值T_core，这一参数可以由当前时段历史平均时延表示或通过分析近期网络时延动态预测得到；忽略云端计算耗时，总时延即为传输时延加上T_core；传输时延为其中h_n,c为设n到云的信道增益，为上行带宽；传输能耗为因此云执行时总时延为能耗为

综合考虑，设备的执行时延为能耗为目标函数为设a,b∈(0,1)分别代表用户n执行时间和能量消耗的权重系数；

S3：以最小化系统开销为优化目标，构建深度强化学习模型；

所述构建深度强化学习模型具体步骤为：

采用基于最大熵框架的柔性制动决策SAC算法求解卸载及资源分配问题，SAC是基于连续状态与策略空间的深度强化学习算法；

将卸载和资源分配决策问题建模三元组(S,A,r)，其中，S是系统状态集，A是卸载及资源分配动作集，r是回报函数；

接入终端设备集合在决策时刻t的状态空间可以定义为s_t∈S_t＝[F^L(t),F^D(t),D(t),F^M(t)]；其中和分别为本地计算能力矩阵和边缘D2D设备的计算能力矩阵；D(t)＝[D₁(t),...,D_n(t),...,D_N(t)]为任务数据矩阵；和D_n(t)分别代表在决策时刻t终端设备n的本地计算能力、相关边缘D2D节点的计算能力以及任务数据大小；F^M(t)代表MEC服务器在决策时刻t的可用计算资源；

动作集和包括卸载到D2D、MEC和云的卸载决策，以及计算资源分配决策和带宽分配决策；动作空间可定义为a_t∈A_t＝[α(t),β(t),γ(t),F^M(t),B^M(t)]；其中α(t)＝[α₁(t),...,α_n(t),...,α_N(t)]、β(t)＝[β₁(t),...,β_n(t),...,β_N(t)]和γ(t)＝[γ₁(t),...,γ_n(t),...,γ_N(t)]分别为卸载到边缘D2D设备、MEC服务器和云服务器的任务矩阵；α_n(t)、β_n(t)和γ_n(t)分别代表终端设备n在决策时刻t卸载到边缘D2D设备、MEC服务器或云中的任务比例；对于终端设备n，满足条件α_n(t)β_n(t)γ_n(t)＝0,(0≤α_n(t)≤1,0≤β_n(t)≤1,0≤γ_n(t)≤1)；计算资源分配决策为带宽资源分配决策为其中，和分别代表在决策时刻t分配给终端用户n的MEC计算资源和带宽；

定义回报函数为

其中，Γ_n为MEC系统中用户n的时延、能耗和带宽分配代价之和；

S4：提出卸载决策和资源分配决策具体步骤为：

步骤1：值函数网络及策略网络建模

建立两个状态值函数网络，分别为软状态值函数网络V_ψ(s_t)和目标状态值函数网络参数分别为ψ和此外，建立了两个状态动作值函数网络参数为θ_i(i∈{1,2})；将策略函数π_φ(a_t|s_t)建模为一个高斯分布，网络参数为φ；

步骤2：值函数网络及策略网络更新

设D为先前采样的状态和动作的分布，软状态值函数的目标函数为梯度可以用无偏估计量来估计；通过梯度下降法更新网络参数ψ，使平方残差即值函数网络的估计值与真实值之间的偏差最小；目标状态值函数网络的参数通过软更新方法进行更新，更新方式为接下来训练状态动作值函数网络的参数θ_i，其目标函数为其中J_Q(θ_i)同样采用随机梯度来优化，使Bellman残差最小；更新过程中使用目标状态网络以切断相关性；

步骤3：网络参数的梯度更新

采用梯度下降法，通过最小化期望KL散度来更新策略网络的参数φ()，策略网络的目标函数可表示为用式来近似梯度，通过随机梯度法下降法进行更新；

在策略更新阶段，将卸载和资源分配策略向着值函数的指数方向更新，重复策略估计和策略更新两个步骤，最终会收敛到最优策略，通过收敛了的策略网络可获得最优卸载及资源分配方案。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110882738.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种食品质量安全采样装置及其采样方法
下一篇：一种具有呼吸效应的功能排气阀及其制备方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的MEC任务卸载和资源分配方法有效

专利文献下载