[发明专利]一种使用强化学习获得无人机中继轨迹的方法有效
申请号: | 202110532993.7 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113258989B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 刘楠;慕红伟;潘志文;尤肖虎 | 申请(专利权)人: | 东南大学 |
主分类号: | H04B7/185 | 分类号: | H04B7/185;H04W40/10;H04W52/34 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 孙建朋 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 强化 学习 获得 无人机 中继 轨迹 方法 | ||
1.一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,其特征在于,输入无人机起始位置,无人机电池最大容量,最大回合数episode_limit,折扣因子γ,学习率α,动作利用率ε;采用Q学习设计能量受限的无人机轨迹,包括以下步骤:
步骤1、将待仿真区域按步长划分为网格;
步骤2、设置状态数和动作数,按照状态数和动作数初始化动作状态表,用来记录每个状态对应动作的长期累计奖励;
步骤3、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制;
步骤4、初始化无人机状态为s0=[xs,ys,Emax];即无人机从起点(xs,ys)以最大电量Emax出发;
步骤5、退火系数为decay_rate,最大回合数episode_limit,计算K=decay_rate/episode_limit,按照ε=1*exp(-K*ε)更新动作利用率ε,即随着训练回合的增加ε逐渐增加至1,以利用训练记录状态动作值;
步骤6、根据状态选择动作,即若随机数是小于ε时,将选择动作状态表中当前长期累积奖励值最大的动作;若随机数是大于等于ε时,则随机选择一个动作;
步骤7、执行动作,获得即时奖励r并进入下一状态s′;
按照下面公式获得即时奖励:
ri=effchange-Ι1p1+Ι2p2
上式中effchange代表当前无人机中继位置相较于无无人机辅助时所有用户平均频谱效率提升的奖励;I是指示函数,即事件成立时返回1,否则为0;即执行动作后无人机违反边界限制和电量限制时I1为1,p1是无人机违反约束事件的惩罚参数,即当执行动作后无人机违反边界限制和电量限制时,奖励函数减去惩罚因子p1;当执行动作后无人机返回起始点且剩余电量为0时I2为1,p2为激励无人机返回起始点的奖励因子;
步骤8、按照下列公式更新状态价值表:
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)];
采用时序差分方式更新状态价值表,直接使用下一状态s′当前对应最大状态动作值maxa′Q(s′,a′)乘上折扣因子γ减去当前值作为当前动作价值更新目标,学习率α用来指示更新的比例;
步骤9、无人机更新状态,包括当前位置和剩余电量,每个时隙i消耗能量分为悬停消耗能量Ehover和水平面飞行消耗能量Emove两种;
当无人机剩余能量E(i)≤0时结束本回合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110532993.7/1.html,转载请声明来源钻瓜专利网。