[发明专利]一种基于Multi-Agent强化学习的移动边缘计算卸载算法在审
申请号: | 202010497995.2 | 申请日: | 2020-06-04 |
公开(公告)号: | CN112015481A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 肖德贵;郭涛 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F9/445 | 分类号: | G06F9/445;G06F9/50;G06N3/04 |
代理公司: | 北京同辉知识产权代理事务所(普通合伙) 11357 | 代理人: | 魏忠晖 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 multi agent 强化 学习 移动 边缘 计算 卸载 算法 | ||
1.一种基于Multi-Agent强化学习的移动边缘计算卸载算法,其特征在于,包括以下步骤:
步骤1:确定环境输入数据并初始化算法参数
初始化参数包括每个Agent神经网络参数的设置,在算法中,每个移动设备都部署了Agent能够单独训练和推断的神经网络,对每个移动设备上的Agent网络设置了相同的参数,每个Agent包括actor network和critic network,为actor network设置了2层的全联接隐藏层,分别包括64和128个神经元,为critic network设置了3层全联接隐藏层,分别包括1024,512和300个神经元,隐藏层之间的激活函数设置为ReLU,actor network和criticnetwork的学习率分别为0.001和0.0001,设置Agent采样的批量大小为128,经验回放池的大小为1024,同时actor network和critic network的更新参数因子设置为0.01,设置了一个算法进行学习前的探索度,设置为300;
步骤2:Agent根据任务状态与移动边缘计算环境交互
移动设备上的Agent根据步骤1确定的输入数据和移动边缘计算环境进行交互,即将任务根据初始化的Agent网络卸载到本地或者边缘服务器中,然后获取卸载决策和奖励值;
步骤3:Agent将输入和输出保存在经验回放池中
移动设备上的Agent将步骤2获取的卸载决策和奖励值以及当前系统状态输入和下一步系统状态输入四个数据存入到经验回放池中,供后续步骤进行调用;
步骤4:Agent从经验回放池进行批量采样优化自身网络参数
每个设备上的Agent均会从经验回放池中批量采样进行网络更新,更新网络参数,优化卸载策略,agent从经验回放池中采样的样本,actor network的网络参数为使用Adam算法最小化损失函数,计算方法如下:
n为批量样本的大小,是critic network输出的动作价值,基于上述的损失函数,我们可以函数梯度为:
对于agent i网络上的critic network,设网络参数为损失函数可以表示为:
其中y可以定义为:
步骤5:算法达到迭代条件后输出Actor Networks。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010497995.2/1.html,转载请声明来源钻瓜专利网。