[发明专利]一种使用强化学习获得无人机中继轨迹的方法有效
申请号: | 202110532993.7 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113258989B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 刘楠;慕红伟;潘志文;尤肖虎 | 申请(专利权)人: | 东南大学 |
主分类号: | H04B7/185 | 分类号: | H04B7/185;H04W40/10;H04W52/34 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 孙建朋 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 强化 学习 获得 无人机 中继 轨迹 方法 | ||
本发明公开了一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,输入无人机起始位置,无人机电池最大容量,最大回合数,折扣因子,学习率,动作利用率,采用Q学习设计能量受限的无人机轨迹。本发明综合考虑基站的天线辐射模式、回程约束、无人机能量消耗,建立了一个有实际意义的无人机电池能量受限的轨迹优化问题,分析待解决的轨迹设计问题,将无人机轨迹设计问题转化为离散时间决策过程并转用Q学习解决问题,能设计无人机最佳轨迹,充分利用无人机电池能量带来最大用户频谱效率的提升。
技术领域
本发明属于移动通信技术领域,尤其涉及一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法。
背景技术
现有的蜂窝网络通常通过调整基站天线参数来优化覆盖范围和减少干扰,然而仅依靠传统网络架构和设计方案很难实质性解决通信系统所存在的问题。新兴的解决方案是采用无人机辅助网络的方式,通过控制无人机的运动,可以利用无人机高移动性,灵活部署以及更高概率与地面用户和基站建立视距通信极大地改善系统性能。
当前在设计无人机轨迹辅助网络通信解决干扰、提高能效时,并没有综合考虑天线辐射、回路限制以及无人机有限电池容量的影响,无法投入实际。
鉴于无人机的多功能性和可操作性,基于人工智能的无人机辅助解决方案能够显著增强下一代无线网络。考虑到无人机机载电池的有限性,无人机的飞行时间是一项重要的考虑因素。一种思路是一些研究提出的通过激光束的单色性和方向性来设计无人机无线充电模型或无人机替换策略,但通常解决方案成本较高、更复杂且需要定期监控无人机电量消耗,当前主流思路是如何高效的利用无人机有限的电量。
本发明在综合考虑回程约束,天线辐射和无人机电池能耗影响同时确保无人机电池有足够的能量返回到原始点充电的实际意义条件下,提出了一种利用强化学习方法来设计无人机最佳轨迹,充分利用无人机电池能量以实现其一个工作周期最大化提升用户频谱效率,将无人机连续时间轨迹转化为离散时间马尔可夫决策过程。
发明内容
本发明目的在于提供一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,以解决无法确保无人机电池有足够的能量返回到原始点充电,用户频谱效率低的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,其特征在于,输入无人机起始位置,无人机电池最大容量,最大回合数episode_limit,折扣因子γ,学习率α,动作利用率ε;采用Q学习设计能量受限的无人机轨迹,包括以下步骤:
步骤1、将待仿真区域按步长划分为网格;
步骤2、设置状态数和动作数,按照状态数和动作数初始化动作状态表,用来记录每个状态对应动作的长期累计奖励;
步骤3、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制;
步骤4、初始化无人机状态为s0=[xs,ys,Emax];即无人机从起点(xs,ys)以最大电量Emax出发;
步骤5、退火系数为decay_rate,最大回合数episode_limit,计算K=decay_rate/episode_limit,按照ε=1*exp(-K*ε)更新动作利用率ε,,即随着训练回合的增加ε逐渐增加至1,以充分利用训练记录的状态动作值;
步骤6、根据状态选择动作,即若随机数是小于ε时,将选择动作状态表中当前长期累积奖励值最大的动作;若随机数是大于等于ε时,则随机选择一个动作;
步骤7、执行动作,获得即时奖励r并进入下一状态s′;
按照下面公式获得即时奖励:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110532993.7/2.html,转载请声明来源钻瓜专利网。