[发明专利]一种用于UAV辅助蜂窝网络的联合波束成形和功率控制方法在审
申请号: | 202011552319.7 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112702097A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 黎海涛;张帅 | 申请(专利权)人: | 北京工业大学 |
主分类号: | H04B7/06 | 分类号: | H04B7/06;H04B7/185;H04W52/06;H04W52/42;H04J11/00;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 uav 辅助 蜂窝 网络 联合 波束 成形 功率 控制 方法 | ||
1.一种用于UAV辅助蜂窝网络的深度强化学习波束成形和功率控制方法,其特征在于,包括以下实现步骤:
步骤(1):初始化,设定UAV基站的状态集s和动作集a,折扣因子μ,当前神经网络Q的参数(α,β),目标神经网络的参数总的迭代时间步数Nt;
这里α,β分别表示当前网络中状态值函数网络V和优势函数网络A的超参数,分别表示目标网络中状态值函数网络V和优势函数网络A的超参数;
步骤(2):UAV基站观测当前系统状态s并选择一个初始动作a,其由{波束形成向量,发射功率值}组成;
;步骤(3):UAV基站执行动作a,即利用波束形成向量对发射信号赋形,并以动作a中的功率值发射信号;
步骤(4):计算UAV基站执行动作a所获得当前时间步t时奖励值rt;
步骤(5):UAV基站观测下一时刻其所处状态s′;
步骤(6):UAV基站将得到的向量集(s,a,r,s′),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态)存储到经验池D中;
步骤(7):若经验池已满,从经验池D中取一批数据样本,以对神经网络进行训练;
步骤(8):构造当前网络Q和目标网络把数据样本输入到当前网络处理得到Q(s,a)值;
这里目标网络和当前网络采用相同的神经网络结构,为三层BP神经网络:输入层,隐藏层、和输出层,其中隐藏层由并行的状态值函数网络V的隐藏层和优势函数网络A的隐藏层构成;
步骤(9):计算当前网络Q的状态值函数V(s,β)和优势函数A(s,a,α),即把Q(s,a)分别输入到状态值函数网络V和优势函数网络A处理后输出;
步骤(10):把输出的状态值函数和优势函数合并得到当前网络Q的动作-状态函数;
即用状态值函数网络的输出加上优势函数网络的输出,其中优势函数网络的输出为当前优势函数值与所有优势函数均值的差,如下式所示
这里为优势函数A(s,a',α)的均值,a'为状态s'时的采用的动作,每个优势函数A值的计算都如步骤(9)所述,表示优势函数集A(s,a',α)的数量;
步骤(11):利用当前网络和目标网络的输出来计算损失函数L=(rt+μmaxa'Q(s',a')-Q(s,a))2;
这里r+μmaxa'Q(s',a')是目标网络的输出,μ是折扣因子,maxa'Q(s',a')是计算并选取动作a'、状态s'时的最大Q值,Q(s,a)是当前网络的输出,本步骤的目的是计算目标Q值与当前Q值的均方差,其中Q值的计算方法如步骤(9)、(10);
步骤(12):对损失函数L进行随机梯度下降计算以更新当前网络Q的参数(α,β);
步骤(13):每隔Tc时间步更新目标网络的参数即把当前网络参数(α,β)复制到目标网络代替
这里Tc为设定的时间步数,若当前迭代计算的时间步t等于Tc时,则执行本步骤操作;
步骤(14):引入置信度更新奖励
这里是置信因子,其中t为当前迭代计算的时间步,Nt为迭代计算总的时间步数;
步骤(15):UAV基站根据所获奖励最大原则选取下一时刻动作(波束向量和发射功率值),即a'=argmax rt;
步骤(16):更新迭代时间步t=t+1;
步骤(17):重复步骤(2)~(16),直到收敛,并输出此时动作对应的{波束向量,发射功率};
步骤(18):UAV基站利用波束向量对发射信号赋形,并以所得功率发送信号到用户端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011552319.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于图像识别的细胞定位系统
- 下一篇:一种新能源太阳能板生产用清洁装置