[发明专利]基于DDPG的无线定位网络的资源优化方法在审
申请号: | 202110865555.2 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113597008A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 杨盼;向晨路;张舜卿;徐树公 | 申请(专利权)人: | 上海大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;H04W4/02;H04W4/021;H04W4/33;G06N3/04;G06N3/08 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ddpg 无线 定位 网络 资源 优化 方法 | ||
1.一种基于DDPG的无线定位网络的资源优化方法,其特征在于,在离线阶段采用位置推理获得的节点之间的距离以及信道参数作为DDPG网络的状态空间,采用各个节点分配到的带宽和功率作为DDPG网络的动作空间,经收益设置和网络训练后,在在线阶段根据代理节点的当前状态信息通过DDPG网络得到最优的带宽和功率分配方案,实现资源分配;
所述的DDPG网络包括:在线动作(Actor)网络、目标Actor网络、在线评价(Critic)网络、目标Critic网络,其中:在线Actor网络和目标Actor网络均包括:七个隐藏层,除最后一层隐藏层直接是线性输出,其余每一层隐藏层均采用ReLU作为激活函数,从第二个隐藏层开始,后续六个隐藏层分为结构相同的上下两部分:上半部分被训练用于带宽的分配,下半部分被训练用于功率的分配;在线Critic网络和目标Critic网络均包括五个隐藏层,除最后一层隐藏层直接是线性输出,其余每一层隐藏层均采用ReLU作为激活函数。
2.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法,其特征是,所述的节点之间的距离,通过以下方式得到:无线定位网络中各个节点根据带宽和功率的分配方案测量自身和其他节点之间的距离,再利用TOA定位方法来确定代理节点的具体位置,基于初始的分配方案是均匀分配,每个节点分配到的资源相同,各个节点的带宽功率其中:i∈{1,2,…,Na+Nb},该无线定位网络中包括Na个代理节点和Nb个锚节点,网络可以使用的总带宽和总功率分别为Btotal,Ptotal。
3.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法,其特征是,所述的DDPG网络的状态空间,采用节点之间的距离与信道参数作为DDPG网络的状态空间,其中:节点之间的距离信息通过测距操作获得,信道参数通过信道估计获得,具体包括:基于平均分配带宽和功率的方案进行测距获得节点之间的距离信息,按照代理节点与某一锚节点之间的远近对代理节点进行排序,再将这些代理节点和锚节点之间的距离和信道参数作为状态空间,以极大的减小网络训练的开销。
4.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法,其特征是,所述的在线Actor网络以规定状态st作为输入,输出动作at,并获取此刻的收益rt,同时转变为下一个状态st+1,再将(st,at,rt,st+1)作为一组训练数据存放到经验池中;
从经验池中随机采样N组(sk,ak,rk,sk+1)训练数据用于训练DDPG中的四个网络,其中1≤k≤N,则目标Actor网络由状态sk+1输出动作ak+1、目标Critic网络根据状态sk+1、目标Actor网络输出的ak+1得到对应的评估函数Q′(sk+1,ak+1|θQ′)、在线Critic网络根据状态和动作(sk,ak)输出对应的评价函数Q(sk,ak|θQ),其中在线Actor网络和在线Critic网络的网络参数分别是根据抽样策略梯度和损失函数梯度进行更新的:目标网络参数θQ′和θμ′是通过软更新的方式分别根据在线网络的网络参数θQ和θμ来更新的:θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110865555.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全海深深度计
- 下一篇:双面呢布料的机缝方法和应用