[发明专利]基于深度确定性策略梯度的移动边缘计算速率最大化方法有效
申请号: | 201810342357.6 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108738045B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 黄亮;冯旭;钱丽萍;吴远 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | H04W24/02 | 分类号: | H04W24/02;H04W28/06;H04W28/10 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 确定性 策略 梯度 移动 边缘 计算 速率 最大化 方法 | ||
1.一种基于深度确定性策略梯度的移动边缘计算速率最大化方法,其特征在于,所述方法包括以下步骤:
1)在一个由一个基站和多个无线设备组成由无线供电的边缘计算系统中,基站和每个无线设备都有一个单独的天线;射频能量发射器和边缘计算服务器都集成在基站中,假设基站有一个稳定的能量供给,并且能广播射频能量给所有无线设备;每一个无线设备都有一个能量收集电路和一个可充电电池,通过存储收集的能量来完成一些任务;在这个无线通信系统中,每个无线设备都需要与基站建立联系,无线设备i与基站之间的信道增益hi计算为:
其中,各参数定义如下:
Ad:天线增益;
π:圆周率;
fc:载波频率;
di:无线设备i与基站之间的距离;
de:路径损耗指数;
2)假设每一个无线设备的计算任务在本地低性能的微处理器上执行或者分流给具有更强大的处理能力的边缘计算服务器,它将处理计算任务然后将结果发送回无线设备;假设无线设备采用二进制计算分流规则,也就是,一个无线设备必须选择是本地计算模式或者分流模式,我们使用两个互不重叠的集合和分别表示在本地计算模式和分流模式的所有无线设备,所有无线设备集合表示为:
3)处在集合中的无线设备能够收集能量并同时处理本地任务,而处在集合中的无线设备只能在收集能量后将任务分流至基站处理,假设基站的计算能力和传输能力要比能量采集无线设备要强大得多,在这种情况下,在任务卸载过程中,无线设备耗尽了其收集的能量,所有无线设备的计算速率总和最大化问题描述为:
约束条件为:
式中:
其中,各参数定义如下:
ωi:第i个无线设备的转换权重;
μ:能量收集效率;
P:射频能量传输功率;
Φ:处理每一位数据所需的计算循环次数;
hi:第i个无线设备的信道增益;
ki:第i个无线设备的能源效率系数;
T:时间系数;
vμ:转换效率;
B:带宽;
τj:第j个无线设备的时间系数;
N0:本地处理模式下无线设备的个数;
4)通过深度确定性策略梯度方法来寻找一个最优的模式选择,即所有无线设备的模式选择和该深度确定性策略梯度方法由执行单元,评分单元和环境所组成,所有用户的模式选择和都被编进了执行单元所需的状态xt,执行单元在当前状态下采取动作a对模式选择和进行更改并进入下一个状态xt+1,同时得到环境返回的奖励r(xt,a),评分单元结合状态xt,动作a以及环境返回的奖励r(xt,a)给执行单元打分,即表明执行单元在状态xt下采取动作a是好是坏,执行单元的目标就是让评分单元所打的分越高越好,而评分单元的目标是让自己每次打出的分都接近真实,通过奖励r(xt,a)来调节,在执行单元,评分单元和环境不断交互更新下,模式选择和将不断被优化直到被更新到最优,评分单元的更新方式为:
S(xt,a)=r(xt,a)+γS′(xt+1,a′) (4)
其中,各参数定义如下:
xt:在时刻t,系统所处状态;
xt+1:在时刻t+1,系统所处状态;
a:在当前状态执行单元所采取的动作;
a′:在下一状态执行单元所采取的动作;
S(xt,a):执行单元中的评估网络在状态xt下采取动作a所得到的分值;
S′(xt+1,a′):执行单元中的目标网络在状态xt+1下采取动作a′所得到的分值;
r(xt,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
5)所有无线设备的模式选择和作为深度确定性策略梯度方法的状态xt,动作a则是对状态xt的更改,更改后系统的总计算速率会与一个设定的标准值进行比较,如果比这个标准值大则使当前奖励r(xt,a)设为正值,反之设为负值,同时系统进入下一状态xt+1。
2.如权利要求1所述的基于深度确定性策略梯度的移动边缘计算速率最大化方法,其特征在于,所述步骤5)中,深度确定性策略梯度方法的迭代过程为:
步骤5.1:初始化深度确定性策略梯度方法中的执行单元,评论单元和记忆库,当前系统状态为xt,t初始化为1,迭代次数k初始化为1;
步骤5.2:当k小于或等于给定迭代次数K时,在状态xt下,执行单元预测出一个动作a;
步骤5.3:动作a对状态xt进行更改,使其变成下一状态xt+1并得到环境所反馈的奖励r(xt,a);
步骤5.4:按照格式(xt,a,r(xt,a),xt+1)把历史经验保存在记忆库中;
步骤5.5:评分单元接收动作a,状态xt和奖励r(xt,a),给执行单元打出分数S(xt,a);
步骤5.6:执行单元通过更新自身参数不断去最大化分数S(xt,a),尽可能地让自己在下次能做出高分动作;
步骤5.7:评分单元抽取记忆库中的历史经验,不断学习,更新参数使得自己所打的分尽可能准确,同时k=k+1,回到步骤5.2;
步骤5.8:当k大于给定迭代次数K时,学习过程结束,得到最佳模式选择和
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810342357.6/1.html,转载请声明来源钻瓜专利网。