[发明专利]基于深度强化学习的无人机轨迹及功率联合优化方法有效

专利信息
申请号: 202011079226.7 申请日: 2020-10-10
公开(公告)号: CN112118556B 公开(公告)日: 2022-11-18
发明(设计)人: 赵楠;程一强;萧洒;裴一扬;刘聪;刘泽华 申请(专利权)人: 湖北工业大学
主分类号: H04W4/44 分类号: H04W4/44;H04W24/02;H04W52/14;H04W52/24;H04W52/26;H04W52/28;G06N3/04;G06N3/08
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 严彦
地址: 430068 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 强化 学习 无人机 轨迹 功率 联合 优化 方法
【权利要求书】:

1.一种基于深度强化学习的无人机轨迹及功率联合优化方法,其特征在于:建立无人机系统模型,对无人机轨迹控制和功率分配问题进行描述;建立马尔可夫模型,包括通过设置状态、动作空间和奖励函数,确定马尔可夫决策过程;采用深度确定性策略梯度方法,实现轨迹控制和功率分配的联合优化,实现方式如下,

所述深度确定性策略梯度方法结合actor网络和critic网络,并设置相应目标网络;核心地面基站首先初始化经验回放存储器D、actor-critic网络的权重以及相应的目标网络;

设训练过程有EP个训练集,每个训练集都有T时隙;在每个训练集中,首先初始化网络状态,在每一训练集的每一个时隙,动作由带有随机噪音的actor网络发出;核心地面基站将选定的动作发送给所有无人机后,所有无人机都会相应地设置自己的轨迹和传输功率;当某些无人机飞出网络区域时,它将选择一个随机方向角,如果某些无人机的高度hi(t)超过[Hmin,Hmax],无人机将停留在Hmin或Hmax高度,其中Hmin和Hmax分别表示无人机的最小高度和最大高度;一旦某些无人机学习到最好的轨迹和功率,并为覆盖范围内的用户设备提供无线服务时,训练过程全部结束;

此外,通过导频信号,每个用户设备测量来自所有无人机的接收功率;基于最大接收信号功率,用户设备与无人机相关联;在用户关联之后,用户设备给关联的无人机报告自己的当前状态;

最后,在回程链路的帮助下,核心地面基站获得全局网络下一状态和即时奖励,相应信息保存在经验回放存储器D中,所述信息包括状态S(t)、下一状态S′(t)、动作A(t)和奖励R(t);从经验回放存储器D中随机抽取mini-batch转移样本,以更新actor网络和critic网络;目标网络的权重相应被缓慢更新;

重复上述训练过程,直到所有无人机覆盖所有热点而没有重叠,并且所有用户设备的服务质量要求都得到满足。

2.根据权利要求1所述基于深度强化学习的无人机轨迹及功率联合优化方法,其特征在于:所述建立无人机系统模型,实现如下,

在无人机辅助蜂窝网络中,将N个无人机部署为空中基站,以在N个非重叠热点中为M个用户设备提供无线服务,用户设备和无人机的集合分别表示为和在热点i中的用户设备数量表示为M(i);假设第i个无人机使用相同的频带向第i个热点提供服务,每个用户设备仅属于一个热点,得出

同时,所有的无人机都由一个核心地面基站控制,在t时刻,同一热点中的用户设备都将由相同的无人机同时提供服务;记第m个用户设备的平面坐标其中,xm和ym是第m个用户设备的坐标,表示域;

在t时刻,第i个无人机的水平坐标表示为其中,xi(t)和yi(t)分别表示第i个无人机的X坐标和Y坐标;水平方向上获得第m个用户设备和第i个无人机之间的距离为

将第i个无人机的高度定义为hi(t)∈[Hmin,Hmax],其中Hmin和Hmax分别表示无人机的最小高度和最大高度;第i个无人机与第m个无人机之间的距离为

基于无人机的飞行速度有限,无人机的轨迹以最大行驶距离为准:

||vi(t+1)-vi(t)||≤VLTs, (1)

||hi(t+1)-hi(t)||≤VATs, (2)

其中,VL和VA分别表示每个时隙Ts中无人机的水平飞行和垂直飞行速度;

此外,为了避免任何两架无人机的碰撞,考虑无人机的碰撞约束,对于第i个无人机和第j个无人机有:

其中,Dmin表示任意两架无人机之间的最短距离;

设定时隙Ts足够小,将信道近似为恒定;考虑到任意两架无人机之间的避碰,Ts应满足的约束条件;获得每个时隙无人机的最大水平距离和最大垂直距离其中,Tmax为Dmin相应的阈值;

设从无人机发出的无线电信号由视线传输和非视线传输组成,第m个用户设备和第i个无人机之间的视线传输连接的概率表示为:

其中,a和b是与环境有关的参数,是第m个用户设备和第i个无人机的夹角;此外,非视线传输的可能性为

在时间t,视线传输和非视线传输的路径损耗可以表示为以下模型:

其中,fc为载频,ηLoS和ηNLoS分别为视线传输和非视线传输的平均额外损失;

预期平均路径损耗表示为总可用带宽B均等地分配给每个用户设备,第i个热点中第m个用户设备的带宽表示为Bi,m=B/M(i),并且无人机的发射功率也被均匀地分配给每个用户设备,为pi,m(t)=pi(t)/M(i),其中,pi(t)∈[0,Pmax]表示带有最大发射功率Pmax的第i个无人机发射功率;

从无人机接收到的第m个用户设备的信噪比表示为:

其中,gi,m(t)是第i个无人机和第m个用户设备之间的信道增益,N0是噪声功率谱密度;

设从第i个无人机获得第m个用户设备的可达到的速率ri,m(t)=Bi,m log2(1+Γi,m(t)),得到第i个无人机的总速率:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011079226.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top