[发明专利]基于深度强化学习的无人机轨迹及功率联合优化方法有效

申请号：	202011079226.7	申请日：	2020-10-10
公开（公告）号：	CN112118556B	公开（公告）日：	2022-11-18
发明（设计）人：	赵楠;程一强;萧洒;裴一扬;刘聪;刘泽华	申请（专利权）人：	湖北工业大学
主分类号：	H04W4/44	分类号：	H04W4/44;H04W24/02;H04W52/14;H04W52/24;H04W52/26;H04W52/28;G06N3/04;G06N3/08
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	严彦
地址：	430068 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习无人机轨迹功率联合优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的无人机轨迹及功率联合优化方法，其特征在于：建立无人机系统模型，对无人机轨迹控制和功率分配问题进行描述；建立马尔可夫模型，包括通过设置状态、动作空间和奖励函数，确定马尔可夫决策过程；采用深度确定性策略梯度方法，实现轨迹控制和功率分配的联合优化，实现方式如下，

所述深度确定性策略梯度方法结合actor网络和critic网络，并设置相应目标网络；核心地面基站首先初始化经验回放存储器D、actor-critic网络的权重以及相应的目标网络；

设训练过程有EP个训练集，每个训练集都有T时隙；在每个训练集中，首先初始化网络状态，在每一训练集的每一个时隙，动作由带有随机噪音的actor网络发出；核心地面基站将选定的动作发送给所有无人机后，所有无人机都会相应地设置自己的轨迹和传输功率；当某些无人机飞出网络区域时，它将选择一个随机方向角，如果某些无人机的高度h_i(t)超过[H_min,H_max]，无人机将停留在H_min或H_max高度，其中H_min和H_max分别表示无人机的最小高度和最大高度；一旦某些无人机学习到最好的轨迹和功率，并为覆盖范围内的用户设备提供无线服务时，训练过程全部结束；

此外，通过导频信号，每个用户设备测量来自所有无人机的接收功率；基于最大接收信号功率，用户设备与无人机相关联；在用户关联之后，用户设备给关联的无人机报告自己的当前状态；

最后，在回程链路的帮助下，核心地面基站获得全局网络下一状态和即时奖励，相应信息保存在经验回放存储器D中，所述信息包括状态S(t)、下一状态S′(t)、动作A(t)和奖励R(t)；从经验回放存储器D中随机抽取mini-batch转移样本，以更新actor网络和critic网络；目标网络的权重相应被缓慢更新；

重复上述训练过程，直到所有无人机覆盖所有热点而没有重叠，并且所有用户设备的服务质量要求都得到满足。

2.根据权利要求1所述基于深度强化学习的无人机轨迹及功率联合优化方法，其特征在于：所述建立无人机系统模型，实现如下，

在无人机辅助蜂窝网络中，将N个无人机部署为空中基站，以在N个非重叠热点中为M个用户设备提供无线服务，用户设备和无人机的集合分别表示为和在热点i中的用户设备数量表示为M(i)；假设第i个无人机使用相同的频带向第i个热点提供服务，每个用户设备仅属于一个热点，得出

同时，所有的无人机都由一个核心地面基站控制，在t时刻，同一热点中的用户设备都将由相同的无人机同时提供服务；记第m个用户设备的平面坐标其中，x_m和y_m是第m个用户设备的坐标，表示域；

在t时刻，第i个无人机的水平坐标表示为其中，x_i(t)和y_i(t)分别表示第i个无人机的X坐标和Y坐标；水平方向上获得第m个用户设备和第i个无人机之间的距离为

将第i个无人机的高度定义为h_i(t)∈[H_min,H_max]，其中H_min和H_max分别表示无人机的最小高度和最大高度；第i个无人机与第m个无人机之间的距离为

基于无人机的飞行速度有限，无人机的轨迹以最大行驶距离为准：

||v_i(t+1)-v_i(t)||≤V_LT_s, (1)

||h_i(t+1)-h_i(t)||≤V_AT_s, (2)

其中，V_L和V_A分别表示每个时隙T_s中无人机的水平飞行和垂直飞行速度；

此外，为了避免任何两架无人机的碰撞，考虑无人机的碰撞约束，对于第i个无人机和第j个无人机有：

其中，D_min表示任意两架无人机之间的最短距离；

设定时隙T_s足够小，将信道近似为恒定；考虑到任意两架无人机之间的避碰，T_s应满足的约束条件；获得每个时隙无人机的最大水平距离和最大垂直距离其中，T_max为D_min相应的阈值；

设从无人机发出的无线电信号由视线传输和非视线传输组成，第m个用户设备和第i个无人机之间的视线传输连接的概率表示为：

其中，a和b是与环境有关的参数，是第m个用户设备和第i个无人机的夹角；此外，非视线传输的可能性为

在时间t，视线传输和非视线传输的路径损耗可以表示为以下模型：

其中，f_c为载频，η_LoS和η_NLoS分别为视线传输和非视线传输的平均额外损失；

预期平均路径损耗表示为总可用带宽B均等地分配给每个用户设备，第i个热点中第m个用户设备的带宽表示为B_i,m＝B/M(i)，并且无人机的发射功率也被均匀地分配给每个用户设备，为p_i,m(t)＝p_i(t)/M(i)，其中，p_i(t)∈[0,P_max]表示带有最大发射功率P_max的第i个无人机发射功率；

从无人机接收到的第m个用户设备的信噪比表示为：

其中，g_i,m(t)是第i个无人机和第m个用户设备之间的信道增益，N₀是噪声功率谱密度；

设从第i个无人机获得第m个用户设备的可达到的速率r_i,m(t)＝B_i,m log₂(1+Γ_i,m(t))，得到第i个无人机的总速率：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖北工业大学，未经湖北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011079226.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种多色激光光源合光结构、投影装置及照明设备
下一篇：一种全链条食品安全大数据采集方法

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W4-00 专门适用于无线通信网络的业务或设施
H04W4-02 .利用用户或终端位置的业务
H04W4-06 .广播选择分发；到用户组的业务；单向选呼业务
H04W4-12 .消息传送，例如SMS[短消息业务]；邮箱；通告，例如，通知用户通信请求的状态或进展
H04W4-16 .与通信相关的补充业务,例如，呼叫转移或呼叫保持
H04W4-18 .信息格式或内容转换，例如，为了向用户或终端无线传送的目的，由网络对发送或接收的信息进行适应修改

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习的无人机轨迹及功率联合优化方法有效

专利文献下载