[发明专利]一种使用强化学习获得无人机中继轨迹的方法有效

申请号：	202110532993.7	申请日：	2021-05-17
公开（公告）号：	CN113258989B	公开（公告）日：	2022-06-03
发明（设计）人：	刘楠;慕红伟;潘志文;尤肖虎	申请（专利权）人：	东南大学
主分类号：	H04B7/185	分类号：	H04B7/185;H04W40/10;H04W52/34
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	孙建朋
地址：	211102 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种使用强化学习获得无人机中继轨迹方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法，其特征在于，输入无人机起始位置，无人机电池最大容量，最大回合数episode_limit,折扣因子γ,学习率α,动作利用率ε；采用Q学习设计能量受限的无人机轨迹，包括以下步骤：

步骤1、将待仿真区域按步长划分为网格；

步骤2、设置状态数和动作数，按照状态数和动作数初始化动作状态表，用来记录每个状态对应动作的长期累计奖励；

步骤3、初始回合标志为1，进入大循环，递增遍历直至达到最大回合数限制；

步骤4、初始化无人机状态为s₀＝[x_s,y_s,E_max]；即无人机从起点(x_s,y_s)以最大电量E_max出发；

步骤5、退火系数为decay_rate，最大回合数episode_limit,计算K＝decay_rate/episode_limit，按照ε＝1*exp(-K*ε)更新动作利用率ε,即随着训练回合的增加ε逐渐增加至1，以利用训练记录状态动作值；

步骤6、根据状态选择动作，即若随机数是小于ε时，将选择动作状态表中当前长期累积奖励值最大的动作；若随机数是大于等于ε时，则随机选择一个动作；

步骤7、执行动作，获得即时奖励r并进入下一状态s′；

按照下面公式获得即时奖励：

r_i＝eff_change-Ι₁p₁+Ι₂p₂

上式中eff_change代表当前无人机中继位置相较于无无人机辅助时所有用户平均频谱效率提升的奖励；I是指示函数，即事件成立时返回1，否则为0；即执行动作后无人机违反边界限制和电量限制时I₁为1，p₁是无人机违反约束事件的惩罚参数，即当执行动作后无人机违反边界限制和电量限制时，奖励函数减去惩罚因子p₁；当执行动作后无人机返回起始点且剩余电量为0时I₂为1，p₂为激励无人机返回起始点的奖励因子；

步骤8、按照下列公式更新状态价值表：

Q(s,a)←Q(s,a)+α[r+γmax_a′Q(s′,a′)-Q(s,a)]；

采用时序差分方式更新状态价值表，直接使用下一状态s′当前对应最大状态动作值max_a′Q(s′,a′)乘上折扣因子γ减去当前值作为当前动作价值更新目标,学习率α用来指示更新的比例；

步骤9、无人机更新状态，包括当前位置和剩余电量,每个时隙i消耗能量分为悬停消耗能量E_hover和水平面飞行消耗能量E_move两种；

当无人机剩余能量E(i)≤0时结束本回合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110532993.7/1.html，转载请声明来源钻瓜专利网。