[发明专利]基于TD3算法的计算卸载分配方法和装置有效
申请号: | 202011251177.0 | 申请日: | 2020-11-11 |
公开(公告)号: | CN112600869B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 赵莎莎;秦立丹;张登银;孙晨辉;周晓宇;朱子洁;何培源 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L67/10 | 分类号: | H04L67/10;H04L67/101;H04L67/1023;G06N20/00;G06N3/08;G16Y20/30 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 丁朋华 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 td3 算法 计算 卸载 分配 方法 装置 | ||
1.一种基于TD3算法的计算卸载分配方法,其特征在于,包括步骤:
获取计算卸载系统状态,将计算卸载系统状态输入预先训练好的计算卸载TD3网络的演员当前网络,得到计算卸载比例和计算卸载发射功率;
所述计算卸载系统状态包括:物联网设备到边缘服务器的信道增益、物联网设备的电池电量和可收集的可再生能源能量;
在t+1时隙,物联网设备的电池电量bt+1表达为:
为本地物联网设备执行计算任务需要的能量消耗,为:
Et1为t时隙将卸载任务从本地物联网设备发送到边缘服务器需要的功率为卸载执行功耗,为:
其中,k为物联网设备芯片的电容有效系数,bt表示t时隙物联网设备的电池电量;B为物联网设备到边缘服务器的带宽,pt为t时隙物联网设备的计算卸载发送功率,σ为噪声功率,ht为t时隙物联网设备用户的信道增益;xt为计算任务卸载比例;Ct为计算任务的计算量;本地IoT设备CPU的频率为f,N为CPU处理1bit数据所需的周期数;et为t时隙可收集的可再生能源能量;
计算卸载TD3网络训练步骤包括:
1)初始化TD3网络;
2)初始化计算卸载系统状态,设置批评家当前网络参数更新次数为0,将计算卸载系统状态st输入TD3网络,得到计算卸载系统动作决策;构建训练样本;
3)每次训练从经验池中抽取M个样本训练TD3网络,更新批评家当前网络参数;批评家当前网络参数更新次数每更新指定次数后,则对演员当前网络参数通过损失梯度更新,以及使用软更新方式更新演员目标网络参数和批评家目标网络参数;若批评家当前网络参数更新大于训练总次数,则本回合训练结束,回合更新数加1;若回合更新数没有达到指定回合更新总次数则继续执行步骤2),进行下一回合训练,否则执行步骤4);
4)保存训练好的TD3网络中的演员当前网络参数;
训练样本构建步骤包括:
初始化TD3网络;
初始化计算卸载系统状态st;
将计算卸载系统状态st输入TD3网络中的演员当前网络,演员当前网络根据策略函数做出动作决策,得到t时隙的计算卸载系统动作at;
物联网设备根据t时隙的计算卸载系统动作at执行计算任务,得到下一时隙t+1的计算卸载系统状态st+1,并计算得到t时隙奖励值Rt;将样本[st,at,Rt,st+1]保存到经验池中,如果样本经验池中样本没有达到经验池容量W,则将下一时隙的计算卸载系统状态st+1输入到演员当前网络,生成下一时隙的计算卸载系统动作at+1,直到样本经验池满;
计算卸载系统动作at表示为:
at=[xt,pt]
其中,计算卸载比例xt∈[0,1],pt∈[0,pmax],pmax为物联网设备发射功率最大值;
t时隙奖励值Rt:
其中,表示t时隙的计算任务的本地执行时延,T1t表示t时隙的计算任务的卸载传输时延,表示t时隙计算任务完全本地执行的时延;I(bt+1≤0)表示任务丢弃指示函数,为任务丢弃权重,Et1为t时隙卸载执行功耗,为本地IoT设备执行计算任务需要的能量消耗。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011251177.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种污水过滤装置
- 下一篇:一种用于区域光伏电站的运维检修方法及系统