[发明专利]一种多无人机轨迹和智能反射面相移联合优化方法及系统有效
申请号: | 202110573024.6 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113364495B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 张超;亓乾月 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;H04B7/01 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无人机 轨迹 智能 反射 相移 联合 优化 方法 系统 | ||
1.一种多无人机轨迹和智能反射面相移联合优化方法,其特征在于,包括以下步骤:
S1、建立基于多无人机和智能反射面辅助的无线通信系统模型,用户发送的信号由安装在无人机上的智能反射面反射到基站,确定无线通信系统模型中的信道模型以及无人机和智能反射面的能量消耗模型,计算无线通信系统模型的能量效率;
S2、基于步骤S1确定的信道模型以及无人机和智能反射面的能量消耗模型,利用K-均值聚类算法将地面用户分簇,将能量效率作为优化目标,然后利用优先级经验回放MATD3方法确定每个簇中无人机的位置,由无人机和智能反射面辅助与基站进行通信的用户,智能反射面被激活的反射元件及被激活反射元件的相移,完成多无人机轨迹和智能反射面相移的联合优化;
利用优先级经验回放MATD3方法确定每个簇中无人机的位置,与基站进行通信的用户的位置,智能反射面被激活的反射元件以及被激活元件的相移,完成多无人机轨迹和智能反射面相移的联合优化具体为:
将基于多无人机和智能反射面辅助的无线通信系统中无人机轨迹和智能反射面相移的优化问题建模成一个马尔可夫博弈,每个安装有智能反射面的无人机作为一个智能体,第k个智能体观测当前的环境状态sk,基于策略πk选择一个行为ak,行为作用于环境后获得奖励rk,然后环境将以转移概率P(s'k|sk,a1,…,aK)转移到新的状态s'k;
在每个时刻内,第k个智能体观测上一时刻无人机k的位置,以及第k个簇中与基站进行通信的用户的位置作为状态sk,训练策略网络的参数为θk,将状态sk作为输入,输出当前时刻第k个无人机的位置,第k个簇中与基站进行通信的被激活用户向量,第k个智能反射面的被激活元件向量以及相移向量作为行为ak;第一训练价值网络和第二训练价值网络的参数分别为ωk1和ωk2,两个训练价值网络将各个智能体观测到的联合状态s=(s1,s2,…,sK)和采取的联合行为a=(a1,a2,…,aK)作为输入,分别输出联合状态-行为价值函数Qk1(s,a1,a2,…,aK,ωk1)和Qk2(s,a1,a2,…,aK,ωk2),目标策略网络将下一个状态s'k作为输入,输出下一个行为a'k,用软更新的方式根据训练策略网络的参数θk更新目标策略网络的参数θ'k,第一目标价值网络和第二目标价值网络输入下一个状态-行为对(s',a'),分别输出Q'k1(s',a'1,a'2,…,a'K,ω'k1)和Q'k2(s',a'1,a'2,…,a'K,ω'k2),用软更新的方式根据第一训练价值网络的参数ωk1和第二训练价值网络的参数ωk2更新第一目标价值网络的参数ω'k1和第二目标价值网络的参数ω'k2;
将(s,a1,a2,…,aK,r1,r2,…,rK,s')作为智能体的一条经验存放在经验存储器中,当经验存储器达到最大存储容量时,使用优先级经验回放的方法从中抽样小批量经验进行训练,更新策略网络的参数和价值网络的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110573024.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:战术标靶训练系统
- 下一篇:一种喷射压缩式热泵深度蒸发浓缩系统