[发明专利]基于深度确定性策略梯度的移动边缘计算速率最大化方法有效

申请号：	201810342357.6	申请日：	2018-04-17
公开（公告）号：	CN108738045B	公开（公告）日：	2021-04-06
发明（设计）人：	黄亮;冯旭;钱丽萍;吴远	申请（专利权）人：	浙江工业大学
主分类号：	H04W24/02	分类号：	H04W24/02;H04W28/06;H04W28/10
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度确定性策略梯度移动边缘计算速率最大化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度确定性策略梯度的移动边缘计算速率最大化方法，其特征在于，所述方法包括以下步骤：

1)在一个由一个基站和多个无线设备组成由无线供电的边缘计算系统中，基站和每个无线设备都有一个单独的天线；射频能量发射器和边缘计算服务器都集成在基站中，假设基站有一个稳定的能量供给，并且能广播射频能量给所有无线设备；每一个无线设备都有一个能量收集电路和一个可充电电池，通过存储收集的能量来完成一些任务；在这个无线通信系统中，每个无线设备都需要与基站建立联系，无线设备i与基站之间的信道增益h_i计算为：

其中，各参数定义如下：

A_d：天线增益；

π：圆周率；

f_c：载波频率；

d_i：无线设备i与基站之间的距离；

d_e：路径损耗指数；

2)假设每一个无线设备的计算任务在本地低性能的微处理器上执行或者分流给具有更强大的处理能力的边缘计算服务器，它将处理计算任务然后将结果发送回无线设备；假设无线设备采用二进制计算分流规则，也就是，一个无线设备必须选择是本地计算模式或者分流模式，我们使用两个互不重叠的集合和分别表示在本地计算模式和分流模式的所有无线设备，所有无线设备集合表示为：

3)处在集合中的无线设备能够收集能量并同时处理本地任务，而处在集合中的无线设备只能在收集能量后将任务分流至基站处理，假设基站的计算能力和传输能力要比能量采集无线设备要强大得多，在这种情况下，在任务卸载过程中，无线设备耗尽了其收集的能量，所有无线设备的计算速率总和最大化问题描述为：

约束条件为：

式中：

其中，各参数定义如下：

ω_i：第i个无线设备的转换权重；

μ：能量收集效率；

P：射频能量传输功率；

Φ：处理每一位数据所需的计算循环次数；

h_i：第i个无线设备的信道增益；

k_i：第i个无线设备的能源效率系数；

T：时间系数；

v_μ：转换效率；

B：带宽；

τ_j：第j个无线设备的时间系数；

N₀：本地处理模式下无线设备的个数；

4)通过深度确定性策略梯度方法来寻找一个最优的模式选择，即所有无线设备的模式选择和该深度确定性策略梯度方法由执行单元，评分单元和环境所组成，所有用户的模式选择和都被编进了执行单元所需的状态x_t，执行单元在当前状态下采取动作a对模式选择和进行更改并进入下一个状态x_t+1，同时得到环境返回的奖励r(x_t，a)，评分单元结合状态x_t，动作a以及环境返回的奖励r(x_t，a)给执行单元打分，即表明执行单元在状态x_t下采取动作a是好是坏，执行单元的目标就是让评分单元所打的分越高越好，而评分单元的目标是让自己每次打出的分都接近真实，通过奖励r(x_t，a)来调节，在执行单元，评分单元和环境不断交互更新下，模式选择和将不断被优化直到被更新到最优，评分单元的更新方式为：

S(x_t，a)＝r(x_t，a)+γS′(x_t+1，a′) (4)

其中，各参数定义如下：

x_t：在时刻t，系统所处状态；

x_t+1：在时刻t+1，系统所处状态；

a：在当前状态执行单元所采取的动作；

a′：在下一状态执行单元所采取的动作；

S(x_t，a)：执行单元中的评估网络在状态x_t下采取动作a所得到的分值；

S′(x_t+1，a′)：执行单元中的目标网络在状态x_t+1下采取动作a′所得到的分值；

r(x_t，a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

5)所有无线设备的模式选择和作为深度确定性策略梯度方法的状态x_t，动作a则是对状态x_t的更改，更改后系统的总计算速率会与一个设定的标准值进行比较，如果比这个标准值大则使当前奖励r(x_t，a)设为正值，反之设为负值，同时系统进入下一状态x_t+1。

2.如权利要求1所述的基于深度确定性策略梯度的移动边缘计算速率最大化方法，其特征在于，所述步骤5)中，深度确定性策略梯度方法的迭代过程为：