[发明专利]基于深度强化学习的无人机轨迹及功率联合优化方法有效
申请号: | 202011079226.7 | 申请日: | 2020-10-10 |
公开(公告)号: | CN112118556B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 赵楠;程一强;萧洒;裴一扬;刘聪;刘泽华 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | H04W4/44 | 分类号: | H04W4/44;H04W24/02;H04W52/14;H04W52/24;H04W52/26;H04W52/28;G06N3/04;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430068 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 无人机 轨迹 功率 联合 优化 方法 | ||
1.一种基于深度强化学习的无人机轨迹及功率联合优化方法,其特征在于:建立无人机系统模型,对无人机轨迹控制和功率分配问题进行描述;建立马尔可夫模型,包括通过设置状态、动作空间和奖励函数,确定马尔可夫决策过程;采用深度确定性策略梯度方法,实现轨迹控制和功率分配的联合优化,实现方式如下,
所述深度确定性策略梯度方法结合actor网络和critic网络,并设置相应目标网络;核心地面基站首先初始化经验回放存储器D、actor-critic网络的权重以及相应的目标网络;
设训练过程有EP个训练集,每个训练集都有T时隙;在每个训练集中,首先初始化网络状态,在每一训练集的每一个时隙,动作由带有随机噪音的actor网络发出;核心地面基站将选定的动作发送给所有无人机后,所有无人机都会相应地设置自己的轨迹和传输功率;当某些无人机飞出网络区域时,它将选择一个随机方向角,如果某些无人机的高度hi(t)超过[Hmin,Hmax],无人机将停留在Hmin或Hmax高度,其中Hmin和Hmax分别表示无人机的最小高度和最大高度;一旦某些无人机学习到最好的轨迹和功率,并为覆盖范围内的用户设备提供无线服务时,训练过程全部结束;
此外,通过导频信号,每个用户设备测量来自所有无人机的接收功率;基于最大接收信号功率,用户设备与无人机相关联;在用户关联之后,用户设备给关联的无人机报告自己的当前状态;
最后,在回程链路的帮助下,核心地面基站获得全局网络下一状态和即时奖励,相应信息保存在经验回放存储器D中,所述信息包括状态S(t)、下一状态S′(t)、动作A(t)和奖励R(t);从经验回放存储器D中随机抽取mini-batch转移样本,以更新actor网络和critic网络;目标网络的权重相应被缓慢更新;
重复上述训练过程,直到所有无人机覆盖所有热点而没有重叠,并且所有用户设备的服务质量要求都得到满足。
2.根据权利要求1所述基于深度强化学习的无人机轨迹及功率联合优化方法,其特征在于:所述建立无人机系统模型,实现如下,
在无人机辅助蜂窝网络中,将N个无人机部署为空中基站,以在N个非重叠热点中为M个用户设备提供无线服务,用户设备和无人机的集合分别表示为和在热点i中的用户设备数量表示为M(i);假设第i个无人机使用相同的频带向第i个热点提供服务,每个用户设备仅属于一个热点,得出
同时,所有的无人机都由一个核心地面基站控制,在t时刻,同一热点中的用户设备都将由相同的无人机同时提供服务;记第m个用户设备的平面坐标其中,xm和ym是第m个用户设备的坐标,表示域;
在t时刻,第i个无人机的水平坐标表示为其中,xi(t)和yi(t)分别表示第i个无人机的X坐标和Y坐标;水平方向上获得第m个用户设备和第i个无人机之间的距离为
将第i个无人机的高度定义为hi(t)∈[Hmin,Hmax],其中Hmin和Hmax分别表示无人机的最小高度和最大高度;第i个无人机与第m个无人机之间的距离为
基于无人机的飞行速度有限,无人机的轨迹以最大行驶距离为准:
||vi(t+1)-vi(t)||≤VLTs, (1)
||hi(t+1)-hi(t)||≤VATs, (2)
其中,VL和VA分别表示每个时隙Ts中无人机的水平飞行和垂直飞行速度;
此外,为了避免任何两架无人机的碰撞,考虑无人机的碰撞约束,对于第i个无人机和第j个无人机有:
其中,Dmin表示任意两架无人机之间的最短距离;
设定时隙Ts足够小,将信道近似为恒定;考虑到任意两架无人机之间的避碰,Ts应满足的约束条件;获得每个时隙无人机的最大水平距离和最大垂直距离其中,Tmax为Dmin相应的阈值;
设从无人机发出的无线电信号由视线传输和非视线传输组成,第m个用户设备和第i个无人机之间的视线传输连接的概率表示为:
其中,a和b是与环境有关的参数,是第m个用户设备和第i个无人机的夹角;此外,非视线传输的可能性为
在时间t,视线传输和非视线传输的路径损耗可以表示为以下模型:
其中,fc为载频,ηLoS和ηNLoS分别为视线传输和非视线传输的平均额外损失;
预期平均路径损耗表示为总可用带宽B均等地分配给每个用户设备,第i个热点中第m个用户设备的带宽表示为Bi,m=B/M(i),并且无人机的发射功率也被均匀地分配给每个用户设备,为pi,m(t)=pi(t)/M(i),其中,pi(t)∈[0,Pmax]表示带有最大发射功率Pmax的第i个无人机发射功率;
从无人机接收到的第m个用户设备的信噪比表示为:
其中,gi,m(t)是第i个无人机和第m个用户设备之间的信道增益,N0是噪声功率谱密度;
设从第i个无人机获得第m个用户设备的可达到的速率ri,m(t)=Bi,m log2(1+Γi,m(t)),得到第i个无人机的总速率:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011079226.7/1.html,转载请声明来源钻瓜专利网。