[发明专利]一种基于深度强化学习的云边协同计算迁移方法在审
申请号: | 202010702969.9 | 申请日: | 2020-07-21 |
公开(公告)号: | CN112134916A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 陈思光;陈佳民;尤子慧 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 协同 计算 迁移 方法 | ||
1.一种基于深度强化学习的云边协同计算迁移方法,其特征在于,包括以下步骤:
(1)构建由用户层、边缘云层和云层组成的移动边缘网络计算迁移模型;
(2)边缘云层内的边缘云节点接收到用户层迁移的计算任务,根据任务分配宽带和计算资源;
所述步骤(2)的具体包括以下步骤:
(21)当多个用户有任务需要计算时,首先确定任务的最大容许延迟,以及本地计算的时间;若本地计算的时间j∈{0,1,2,···,M}大于最大容许延迟,将发送任务迁移请求,把需要计算的任务数据大小发送给边缘节点,边缘节点在边缘云中同步该用户的信息,生成如下的任务表格:
Fij={xij,λij,βij,Di,Titol}
其中,xij表示计算任务在本地执行还是被迁移;λij表示边缘节点j分配给用户i的带宽占比,βij表示边缘节点j分配给用户i的计算资源占比;Titol表示用户终端i的最大容许延迟;其中i∈{1,2,···,N}Di;j表示第j个边缘节点,当j=0时,特指用户终端本身;
(22)边缘节点在边缘云下同步更新和维护上述任务表格,根据全部任务生成的表格可以得到总任务集F:
F={Fij|i∈{1,2,···,N},j∈{0,1,2,···,M}}
(23)总任务集F形成在边缘云中的所有边缘节点中,基于总任务集F得到所有任务的迁移决策,从而计算出各个任务相应的处理成本;
(3)以计算任务的时延和能耗的权重和最小作为优化目标,构建目标函数和约束;
所述步骤(3)中的目标函数为:
其中,目标函数即为最小化全部任务完成时间与用户端能耗的权重和,用总成本C表示;zij为用户i是否选择边缘节点j进行计算迁移;xij表示用户终端选择迁移计算还是本地计算;λij表示边缘节点j分配给用户i的带宽占比;为本地计算成本;为迁移计算成本;
所述步骤(3)中的约束条件包括:
(31)无论是选择本地计算所产生的延迟还是选择迁移计算产生的延迟都不能大于用户对任务执行所能容忍的最大延迟,公式如下:
其中,xij表示用户终端选择迁移计算还是本地计算;为本地计算时间;为迁移计算时间;
(32)节点j分配给各个任务的带宽占比和必须小于或等于1,即迁移到边缘节点的所有用户任务占用的带宽和要小于或等于边缘节点的最大带宽,本地用户的带宽分配也是如此,公式如下:
其中,zij为是否迁移选择,λij为带宽分配比;
(33)所有迁移到边缘节点或在本地执行的任务CPU占比之和小于或等于1,公式如下:
其中,zij为是否迁移选择;βij为CPU占比;
(34)变量zij的取值约束:当zij=0表示任务i并未选择节点j进行计算,当zij=1表示任务i选择j节点执行计算,公式如下:
zij∈{0,1};
(4)构建深度神经网络模型,采用异步云边协同深度强化学习的方法对目标函数进行优化,得到最优的迁移决策,并返回用户层的终端执行该决策;
所述步骤(4)的优化过程具体包括以下步骤:
(41)定义状态空间为:
St=(Cij(t))
其中,Cij(t)表示时隙t时用户i的任务迁移至边缘节点j计算的总成本;St为环境状态;
定义动作空间为:
At=(zij(t),λij(t),βij(t))
其中,zij(t)表示t时刻用户i选择边缘节点j进行迁移;λij(t)表示t时刻边缘节点j分配给用户i的带宽占比;βij(t)表示t时刻边缘节点j分配给用户i的CPU占比;
定义奖励函数为:
其中,v为具体环境决定的奖励值;rtij表示用户i选择边缘节点j进行迁移在时刻t时的奖励值;表示用户i选择边缘节点j进行迁移在时刻t-1时的奖励值;Cij(t-1)表示时隙t-1时用户i的任务迁移至边缘节点j计算的总成本;
(42)为了将边缘节点智能体中的各种观测结果融入深度神经网络中,定义策略函数为:
π(st,at)≈π(at|st;θt)
其中,at为t时刻的迁移动作;θt为使用策略迭代更新网络中的权重参数;
采用梯度上升方法计算关于奖励的期望E[Rt],则策略梯度公式为:
其中,Rt为每个动作的奖励值;π(at|st;θt)表示在状态st下选择动作at的概率;为对的无偏估计;
(43)通过边缘节点的智能体观测到任务迁移到边缘节点的映射,观测包括边缘节点的计算能力,任务的数据大小,以及任务的最大容许延迟,采用多步Q-learning方法中的目标动作Q值定义方法,因此定义动作值Q函数为:
Q(st,at)≈Q(st,at;wt)
其中,Q(st,at)为单个动作所对应的价值;w为本发明的权重参数;
因此基于价值函数的深度神经网络,损失函数定义为:
其中为上一次迭代的权重值;
多步Q-learning方法中的多步是指包括计算后续n步的状态,因此本发明定义TargetQ为:
其中γ为衰减因子;rt,rt+1...rt+n-1分别表示进行迁移在时刻t,t+1...t+n-1时的奖励值;为执行动作at时的最大动作值;
(44)采用折扣奖励用于通知边缘节点迁移决策的优劣;然后进行网络更新,以确定该迁移决策的优劣程度;
定义云-边动作优势函数为:
A(st,at)=Q(st,at)-V(st)
其中,状态值函数V(st)是在时间步t的状态下,所有动作值函数关于动作概率的期望;
采用折扣奖励R作为动作值Q的估计值,最终定义云-边优势函数为:
A(st,at)=R(st,at)-V(st)
其中,R(st,at)为状态st时执行迁移动作at的奖励值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010702969.9/1.html,转载请声明来源钻瓜专利网。