[发明专利]基于深度确定性策略梯度的移动边缘计算速率最大化方法有效

申请号：	201810342357.6	申请日：	2018-04-17
公开（公告）号：	CN108738045B	公开（公告）日：	2021-04-06
发明（设计）人：	黄亮;冯旭;钱丽萍;吴远	申请（专利权）人：	浙江工业大学
主分类号：	H04W24/02	分类号：	H04W24/02;H04W28/06;H04W28/10
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于深度确定性策略梯度方法的移动边缘计算速率最大化方法，包括以下步骤：1)计算出在给出模式选择下系统中所有无线设备的速率总和；2)所有无线设备集合；3)所有无线设备的计算速率总和最大化问题；4)通过深度确定性策略梯度方法来寻找一个最优的模式选择；5)所有无线设备的模式选择M0和M1作为深度确定性策略梯度方法的状态xt，动作a则是对状态xt的更改，更改后系统的总计算速率会与一个设定的标准值进行比较，如果比这个标准值大则使当前奖励r(xt，a)设为正值，反之设为负值，同时系统进入下一状态xt+1。本发明在保证用户体验的前提下最大化所有无线设备的总和计算速率。
搜索关键词：	基于深度确定性策略梯度移动边缘计算速率最大化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度确定性策略梯度方法的移动边缘计算速率最大化方法，其特征在于，所述方法包括以下步骤：1)在一个由一个基站和多个无线设备组成由无线供电的边缘计算系统中，基站和每个无线设备都有一个单独的天线；射频能量发射器和边缘计算服务器都集成在基站中，假设基站有一个稳定的能量供给，并且能广播射频能量给所有无线设备；每一个无线设备都有一个能量收集电路和一个可充电电池，通过存储收集的能量来完成一些任务；在这个无线通信系统中，每个无线设备都需要与基站建立联系，无线设备i与基站之间的信道增益hi计算为：其中，各参数定义如下：Ad：天线增益；π：圆周率；fc：载波频率；di：无线设备i与基站之间的距离；de：路径损耗指数；2)假设每一个无线设备的计算任务在本地低性能的微处理器上执行或者分流给具有更强大的处理能力的边缘计算服务器，它将处理计算任务然后将结果发送回无线设备；假设无线设备采用二进制计算分流规则，也就是，一个无线设备必须选择是本地计算模式或者分流模式，我们使用两个互不重叠的集合和分别表示在本地计算模式和分流模式的所有无线设备，所有无线设备集合表示为：3)处在集合中的无线设备能够收集能量并同时处理本地任务，而处在集合中的无线设备只能在收集能量后将任务分流至基站处理，假设基站的计算能力和传输能力要比能量采集无线设备要强大得多，在这种情况下，在任务卸载过程中，无线设备耗尽了其收集的能量，所有无线设备的计算速率总和最大化问题描述为：约束条件为：式中：其中，各参数定义如下：ωi：第i个无线设备的转换权重；μ：能量收集效率；P：射频能量传输功率；Φ：处理每一位数据所需的计算循环次数；hi：第i个无线设备的信道增益；ki：第i个无线设备的能源效率系数；a：时间系数；vμ：转换效率；B：带宽；τj：第j个无线设备的时间系数；N0：本地处理模式下无线设备的个数；4)通过深度确定性策略梯度方法来寻找一个最优的模式选择，即所有无线设备的模式选择和该深度确定性策略梯度方法由执行单元，评分单元和环境所组成，所有用户的模式选择和都被编进了执行单元所需的状态x_t，执行单元在当前状态下采取动作a对模式选择和进行更改并进入下一个状态x_t+1，同时得到环境返回的奖励r(x_t,a)，评分单元结合状态x_t，动作a以及环境返回的奖励r(x_t,a)给执行单元打分，即表明执行单元在状态x_t下采取动作a是好是坏，执行单元的目标就是让评分单元所打的分越高越好，而评分单元的目标是让自己每次打出的分都接近真实，通过奖励r(x_t,a)来调节，在执行单元，评分单元和环境不断交互更新下，模式选择和将不断被优化直到被更新到最优，评分单元的更新方式为：S(xt,a)＝r(xt,a)+γS′(xt+1,a′) (4)其中，各参数定义如下：xt：在时刻t，系统所处状态；xt+1：在时刻t+1，系统所处状态；a：在当前状态执行单元所采取的动作；a′：在下一状态执行单元所采取的动作；S(xt,a)：执行单元中的评估网络在状态xt下采取动作a所得到的分值；S′(xt+1,a′)：执行单元中的目标网络在状态xt+1下采取动作a′所得到的分值；r(xt,a)：在状态xt下采取动作a所得到的奖励；γ：奖励衰减比重；5)所有无线设备的模式选择和作为深度确定性策略梯度方法的状态x_t，动作a则是对状态x_t的更改，更改后系统的总计算速率会与一个设定的标准值进行比较，如果比这个标准值大则使当前奖励r(x_t,a)设为正值，反之设为负值，同时系统进入下一状态x_t+1。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810342357.6/，转载请声明来源钻瓜专利网。

上一篇：一种LPWAN网络的云管端融合路测实现方法
下一篇：一种基于半监督学习的移动边缘计算速率最大化方法

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W24-00 监督，监控或测试装置
H04W24-02 .用于优化操作环境的装置
H04W24-04 .用于维护操作环境的装置
H04W24-06 .使用仿真业务量进行测试
H04W24-08 .使用真实业务量进行测试
H04W24-10 .调度测量报告

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度确定性策略梯度的移动边缘计算速率最大化方法有效

专利文献下载