[发明专利]一种基于Multi-Agent强化学习的移动边缘计算卸载算法在审

申请号：	202010497995.2	申请日：	2020-06-04
公开（公告）号：	CN112015481A	公开（公告）日：	2020-12-01
发明（设计）人：	肖德贵;郭涛	申请（专利权）人：	湖南大学
主分类号：	G06F9/445	分类号：	G06F9/445;G06F9/50;G06N3/04
代理公司：	北京同辉知识产权代理事务所(普通合伙) 11357	代理人：	魏忠晖
地址：	410082 湖南省***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 multi agent 强化学习移动边缘计算卸载算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Multi-Agent强化学习的移动边缘计算卸载算法，其特征在于，包括以下步骤：

步骤1：确定环境输入数据并初始化算法参数

初始化参数包括每个Agent神经网络参数的设置，在算法中，每个移动设备都部署了Agent能够单独训练和推断的神经网络，对每个移动设备上的Agent网络设置了相同的参数，每个Agent包括actor network和critic network，为actor network设置了2层的全联接隐藏层，分别包括64和128个神经元，为critic network设置了3层全联接隐藏层，分别包括1024，512和300个神经元，隐藏层之间的激活函数设置为ReLU，actor network和criticnetwork的学习率分别为0.001和0.0001，设置Agent采样的批量大小为128，经验回放池的大小为1024，同时actor network和critic network的更新参数因子设置为0.01，设置了一个算法进行学习前的探索度，设置为300；

步骤2：Agent根据任务状态与移动边缘计算环境交互

移动设备上的Agent根据步骤1确定的输入数据和移动边缘计算环境进行交互，即将任务根据初始化的Agent网络卸载到本地或者边缘服务器中，然后获取卸载决策和奖励值；

步骤3：Agent将输入和输出保存在经验回放池中

移动设备上的Agent将步骤2获取的卸载决策和奖励值以及当前系统状态输入和下一步系统状态输入四个数据存入到经验回放池中，供后续步骤进行调用；

步骤4：Agent从经验回放池进行批量采样优化自身网络参数

每个设备上的Agent均会从经验回放池中批量采样进行网络更新，更新网络参数，优化卸载策略，agent从经验回放池中采样的样本，actor network的网络参数为使用Adam算法最小化损失函数，计算方法如下：

n为批量样本的大小，是critic network输出的动作价值，基于上述的损失函数，我们可以函数梯度为：

对于agent i网络上的critic network，设网络参数为损失函数可以表示为：

其中y可以定义为：

步骤5：算法达到迭代条件后输出Actor Networks。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载