[发明专利]设备密集型工业物联网中基于端边云协同的任务卸载方法有效
申请号: | 202210041391.6 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114285853B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 韩光洁;张帆 | 申请(专利权)人: | 河海大学 |
主分类号: | H04L67/10 | 分类号: | H04L67/10;H04L67/12;H04L47/32;G06F9/48;G06F9/50;G06N3/00;G16Y40/00 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 丁燕华 |
地址: | 213000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 设备 密集型 工业 联网 基于 端边云 协同 任务 卸载 方法 | ||
1.一种设备密集型工业物联网中基于端边云协同的任务卸载方法,其特征在于,具体步骤如下:
步骤1:设置系统模型的各参数;
1.1设置网络模型:网络分为三层,从下到上分别为IIoT设备层、边缘层和云层,其中,IIoT设备层包含多种类型的IIoT设备,每个IIoT设备用符号u表示,IIoT设备周期性地采集环境数据,并生成计算密集和延迟敏感型任务;每个IIoT设备通过无线网络接入到本地BS;每个IIoT设备配有一个电池,采用有线或无线充电的方式为设备提供电能;边缘层包含M个BS和一个SDN控制器,每个BS用符号BSm表示,每个BSm上配备了一个ECS,每个ECS用符号ECSm表示,计算能力为fm,负责为IIoT设备提供边缘计算资源;每个BS通过光纤链路连接到SDN控制器,用符号s表示,SDN控制器通过核心骨干网连接到云层,SDN控制器负责对网络数据流进行集中式管理和控制;云层包含多个计算能力充足的CCSs,用符号c表示,计算能力为fc;
1.2将整个时间轴划分为T个长度均为L的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有环境状态参数保持不变,而不同时隙参数不同;
1.3设置任务卸载模型:在每个时隙t,每个BSm中的每个IIoT设备u会随机产生一个计算任务其中表示任务输入数据大小,表示计算该任务所需要的CPU周期数;定义在时隙t在BSm内产生计算任务的所有IIoT设备的集合为对应数量为在时隙t每个设备u和每个ECSm均维护一个先进先出的任务队列和分别表示在时隙t开始时设备u和ECSm尚未执行的任务所需要的CPU周期数;采用基于端边云协同的部分卸载方案,即假设每个任务被分成多个子任务;首先,需要确定IIoT设备本地是否有足够的计算资源,若有,IIoT设备将本地处理整个任务;否则,IIoT设备将根据自身的计算能力处理部分任务,同时将剩余任务卸载到本地ECS;本地ECS在收到卸载任务后,也将根据自身的计算能力处理部分任务,然后,将剩余任务卸载到某个非本地ECS或者CCSs上;定义在时隙t在BSm内的IIoT设备的卸载决策为其中表示将任务从IIoT设备u卸载到本地ECSm的任务卸载比例,表示将任务从本地ECSm卸载到某个非本地ECSn∈{M\{m}}的任务卸载比例,且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算,表示将任务从本地ECSm卸载到CCSs c的任务卸载比例;
1.4设置通信模型:假设每个BS工作在相同的频带上,采用正交频分复用技术将频带划分成多个带宽相同的正交子信道,每个子信道的带宽为βw;定义在时隙t内IIoT设备u与本地BSm之间的上行SNR值为且
其中,表示IIoT设备u的发射功率,表示BSm与IIoT设备u之间的信道增益,σ2表示加性高斯白噪声的方差;定义在时隙t内IIoT设备u与本地BSm之间的上行数据传输速率为且
定义每个BSm和SDN控制器s之间的数据传输速率均为常数SDN控制器s和CCSs c之间的数据传输速率为常数且
1.5设置延迟模型:考虑四种情况下的任务执行延迟模型,即本地计算、本地边缘计算、协作式边缘计算和云计算,其中
1.5.1本地计算:定义在BSm内的IIoT设备u的计算能力为当任务在IIoT设备u上本地执行时,任务的执行延迟包括本地等待延迟和本地计算延迟,即
其中,在时隙t设备u的任务队列表示为
1.5.2本地边缘计算:当IIoT设备u的计算资源不足时,设备u将部分任务卸载到本地ECSm上,所需要的上行传输延迟为
然后,当本地ECSm接收到部分任务时,在本地ECSm上的任务执行延迟包括等待延迟和计算延迟,其中,等待延迟为
其中,表示在时隙t其任务优先于任务到达ECSm的本地设备的集合,表示在时隙t其任务优先于任务到达ECSm 的非本地设备的集合,这些集合能够通过排序算法来获得;在时隙t本地ECSm的任务队列表示为
然后,在本地ECSm上的计算延迟为
因此,任务执行延迟为
1.5.3协作式边缘计算:当本地ECSm的计算资源不足时,将部分任务卸载到某个非本地ECSn上,以平衡ECS的工作负载;定义在时隙t本地ECSm将部分任务卸载到某个非本地ECSn的传输延迟为
然后,当非本地ECSn接收到部分任务时,在非本地ECSn上的任务执行延迟包括等待延迟和计算延迟,等待延迟为
其中,表示在时隙t其任务优先于任务到达ECSn的本地设备的集合,表示在时隙t其任务优先于任务到达ECSn的非本地设备的集合;然后,在非本地ECSn上的任务计算延迟为
因此,任务执行延迟为
1.5.4云计算:当所有ECS上的计算资源均不足时,本地ECSm 需要将部分任务进一步卸载到CCSs c上执行,以充分利用CCSs的丰富计算资源;定义在时隙t本地ECSm将部分任务卸载到CCSs c的传输延迟为
然后,在CCSs c上的任务计算延迟为
定义在时隙t任务的总执行延迟为
1.6设置能耗模型:当任务在IIoT设备u上本地执行时,设备u的计算能耗为
其中,表示IIoT设备u每执行一个CPU周期所消耗的能量;
然后,当IIoT设备u将部分任务卸载到本地ECSm上时,设备u的通信能耗为
因此,在时隙t内IIoT设备u的总能耗为
然后,将充电过程建模为连续到达的能量包,定义在时隙t设备u所获得的能量为设备u的最大电池容量为因此在下一个时隙t+1设备u的剩余电池电量为
步骤2:采用ISAC-DMDRL算法来为每个IIoT设备做出最优决策,目标是最小化长期系统总成本,包括延迟成本和能耗成本。
2.根据权利要求1所述的设备密集型工业物联网中基于端边云协同的任务卸载方法,其特征在于,所述步骤2中ISAC-DMDRL算法的具体步骤如下:
2.1将基于端边云协同的任务卸载问题描述为一个带约束的分散式部分可观察马尔可夫决策过程,将每个IIoT设备视为一个智能体,每个智能体只能观察到局部环境状态,并通过与环境交互来学习自身的最优策略,优化目标是最大化系统的长期累积折扣奖励;该过程用一个七元组U,S,O,A,R,Pr,C来表示,其中
U表示U个智能体的集合,且
S表示全局状态空间:定义在时隙t环境的全局状态为st∈S;
O表示所有智能体的联合观察空间:在时隙t,每个智能体u从环境的全局状态st中获得自身的局部观察Ou表示智能体u的局部观察空间,包括智能体u的任务参数任务队列状态计算能力发射功率上行SNR值执行一个CPU周期所消耗的能量剩余电池电量所获得的能量最大电池容量为每个子信道的带宽βw、每个ECS的任务队列状态每个ECS的计算能力fm、云服务器的计算能力fc、每个BSm和SDN控制器s之间的数据传输速率SDN控制器s和云服务器c之间的数据传输速率在时隙t所有智能体的局部观察构成一个联合观察ot;
A表示所有智能体的联合动作空间:在获得自身的局部观察之后,每个智能体u将选择一个动作来做出任务卸载决策,Au表示智能体u的动作空间;包括智能体u的卸载决策在时隙t所有智能体的动作构成一个联合动作at;
R表示由所有智能体共享的联合奖励函数:当每个智能体u在局部观察下执行动作之后,每个智能体会收到一个由所有智能体所共享的联合即时奖励,即
即系统总成本越大,联合奖励值越小;
Pr表示全局状态转移概率函数:即所有智能体从当前全局状态st下执行联合动作at之后,环境转移到下一全局状态st+1的概率,且
C表示约束条件:每个智能体u在每个时隙t所选择的动作需要满足如下约束(24)—(28),
2.2采用ISAC-DMDRL算法来为每个IIoT设备做出任务卸载决策;在ISAC-DMDRL算法中,每个智能体u均包括一个局部评估actor网络参数为μu;一个局部目标actor网络参数为和一个局部评估critic网络参数为ψu;SDN控制器包括一个集中式评估critic网络参数为ψ;一个集中式目标critic网络参数为一个评估混合网络参数为ε;和一个目标混合网络参数为其中,表示智能体u的评估策略函数,用来为智能体u选择一个动作,所有智能体的构成一个联合评估策略函数πμ、参数为μ=μ1,μ2,...,μU;表示智能体u的目标策略函数,所有智能体的构成一个联合目标策略函数参数为表示智能体u的局部评估软Q值函数,表示全局软状态动作回报的评估分布函数,表示全局软状态动作回报的目标分布函数,负责将全局评估软Q值函数分解成每个智能体u的的线性加权和,即
其中,ωu(st)≥0表示权重值,b(st)表示偏差值;此外,将每个策略函数和分布函数均建模成高斯分布,并采用DNN模型进行逼近,即DNN负责输出高斯分布的均值和协方差矩阵;
ISAC-DMDRL算法包括两个阶段,即训练阶段和执行阶段,其中训练阶段如下:
2.2.1在算法的初始化阶段:初始化每个智能体u的局部评估actor网络的参数μu、集中式评估critic网络的参数ψ、评估混合网络的参数ε、每个智能体u的局部目标actor网络的参数集中式目标critic网络的参数目标混合网络参数episode的总数NE、每个episode所包含的时间步数量NS、经验重放池的存储容量RS、经验重放周期RP、抽样批量大小Z、折扣因子γ、熵权重α、预设最小熵阈值目标网络的平滑系数θ、更新周期UP、学习率λψ、λμ以及λα;定义episode和时间步的索引分别为ne和t,初始化ne=1,t=1;
2.2.2当ne∈{1,2,…,NE}时,执行2.2.3;
2.2.3当t∈{1,2,…,NS}时,执行2.2.4;
2.2.4每个智能体u从环境中获取自身的局部观察并将其输入到自身的actor网络中,然后输出满足约束(24)—(28)的所有可能的连续动作的概率分布然后,每个智能体u根据其随机选择一个动作并执行;
2.2.5在执行动作之后,每个智能体u均获得了一个由所有智能体所共享的联合即时奖励Rt(ot,at),并且环境转移到下一个全局状态st+1,每个智能体u会获得下一个局部观察然后将全局经验样本et=(ot,at,Rt(ot,at),ot+1)存储到经验重放池中;
2.2.6如果则令t←t+1,并返回2.2.3;否则,执行2.2.7;
2.2.7如果t%RP==0,则执行2.2.8;
2.2.8随机从经验重放池中抽取Z个全局经验样本,来更新的参数ψ和每个的参数μu;
2.2.9在软策略评估阶段,定义损失函数Loss(ψ)来训练的参数ψ,目标是使更接近且
其中,KL[A||B]表示Kullback-Leibler散度,用来衡量两个概率分布之间的差异,根据分布式贝尔曼方程,写成
其中,联合动作at+1是根据联合目标策略函数来随机选择的,采用小批量梯度下降法来最小化Loss(ψ),并将所产生的全局软状态动作回报的目标值限制在附近;参数ψ的更新公式为
直接通过梯度的反向传播来自动学习每个智能体u的的参数ψu和混合网络的参数ε;
2.2.10如果t%UP==0,则执行2.2.11;
2.2.11在软策略提升阶段,通过最大化关于全局策略πμ的软状态值函数的目标函数来训练联合策略πμ的参数μ,即训练每个的参数μu;以引导每个朝着最大化软状态值函数的方向进行参数更新,目标函数定义为
其中,at~πμ(·|ot),为了计算梯度需要对进行采样, 采用重参数化技巧来计算梯度首先从一个标准正态分布中随机抽取一个样本然后,使用策略的均值和标准差来计算即重新参数化策略即
其中,⊙表示哈达玛积;参数μ的更新公式为
2.2.12采用自适应梯度方法来调整熵权重α;当最佳动作未确定时,α必须足够大以鼓励探索,随着探索的深入,α应该逐渐减小;通过最小化目标函数J(α)来更新权重α,且
其中,表示预定义的最小熵阈值;因此,权重α的更新公式为
2.2.13为了提高学习稳定性,通过缓慢跟踪评估网络的参数来更新目标网络的参数,即
其中,θ表示目标网络的平滑系数,满足θ∈(0,1),且θ<<1;
在完成ISAC-DMDRL算法的训练过程之后,获得了每个的最优参数然后,每个智能体u利用已经训练好的来选择动作并执行,执行过程如下:
2.2.14当t∈{1,2,…,T}时,执行2.2.15;
2.2.15每个智能体u从环境中收集自身的局部观察然后将输入到自身的局部评估actor网络中,输出所有可能连续动作的概率分布然后,基于来随机选择一个动作并执行;
2.2.16在执行动作之后,每个智能体u均获得了一个由所有智能体所共享的联合即时奖励Rt(ot,at),并且环境转移到下一个全局状态st+1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210041391.6/1.html,转载请声明来源钻瓜专利网。