[发明专利]基于深度强化学习的多无人机空中充电和任务调度方法有效
申请号: | 202210034831.5 | 申请日: | 2022-01-13 |
公开(公告)号: | CN114048689B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 夏景明;王亮;李斌;谈玲 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F9/445;G06F9/48;G06F9/50;G06N3/04;G06N3/08;G06N3/12;G06F111/04;G06F119/06;G06F119/12 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陈月菊 |
地址: | 210044 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 无人机 空中 充电 任务 调度 方法 | ||
1.一种基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,所述多无人机空中充电和任务调度方法包括以下步骤:
S1,根据第三方收集的数据,得到环境中各个用户和基站的位置,构建多无人机群辅助边缘计算模型;
S2,初始化无人机群的部署位置,预设每个无人机的计算资源;
S3,构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型;每个用户设备的计算任务有三种不同的卸载方式:本地计算、近端卸载和远端卸载;本地计算是指计算任务在用户设备上执行;近端卸载是指用户设备将计算任务卸载到其最近无人机节点;远端卸载是指用户设备将计算任务先卸载到最近的无人机节点,以此无人机作为中继站,帮助用户把任务传输给其他无人机进行计算;当无人机电量不足时,此无人机会中止计算服务,将全部任务传给其他无人机后专心吸收太阳能和能量波来充电,同时充当任务中继站;
S4,基于步骤S3的优化模型,以无人机群能耗最小为优化目标,采用DDQN算法求解用户设备的卸载决策;
S5,基于无人机的当前位置和S4得到的卸载决策,采用差分进化算法求解无人机的计算资源分配策略;
S6,基于求解出的用户设备的卸载决策和无人机的计算资源分配策略,再次利用差分进化算法对无人机部署策略进行优化;
S7,循环执行步骤S4至步骤S6,直到相邻两次迭代下整个系统的能量消耗值的绝对值小于预设阈值,或者达到最大预设迭代次数时,迭代结束,获得无人机的部署策略、无人机的计算资源最优分配策略,以及用户设备的最优卸载决策;
步骤S4中,采用DDQN算法求解用户设备的卸载决策的过程包括以下步骤:
S41,建模深度强化学习模型,模型参数包括:迭代轮数T、状态特征维度n、动作集A、步长α、衰减因子γ、探索率∈、网络结构Q、用于表示马尔可夫决策过程的批量梯度下降的样本数m、状态S、动作A、执行完A后的奖励函数R和执行完A后的下一状态S′;
S42,初始化S为当前状态序列的第一个状态,获取其特征向量φ(S);
S43,在Q网络中使用φ(S)作为输入,得到Q网络的所有动作对应的Q值输出;用∈-贪婪法在当前Q值输出中选择对应的动作A;
S44,在状态S执行当前动作A,得到新状态S′对应的特征向量φ(S′)和奖励R;
S45,将{φ(S),A,R,φ(S′),end}这个五元组存入经验回放集合D;
S46,令S=S′;
S47,从经验回放集合D中采样m个样本{φ(Sj),Aj,Rj,φ(S′j),endj},j=1,2…,m,计算当前目标Q值yj:
S48,使用均方差损失函数通过神经网络的梯度反向传播来更新Q网络的所有参数w;
S49,如果S′是终止状态,当前轮迭代完毕,否则转到S43;
S410,迭代执行S42至S49,直到满足预设终止条件时为止,输出基于当前无人机部署和资源分配的最优卸载决策。
2.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,步骤S2中,根据区域范围内的用户密度,初始化无人机群的部署位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210034831.5/1.html,转载请声明来源钻瓜专利网。