[发明专利]基于深度强化学习的无人机网络多用户接入控制方法有效
申请号: | 201910074944.6 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109743210B | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 梁应敞;曹阳;张蔺 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04W48/08;H04B7/185;H04B17/318 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 孙一峰 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 无人机 网络 多用户 接入 控制 方法 | ||
1.基于深度强化学习的无人机网络多用户接入控制方法,该方法用于以无人机作为移动基站为地面用户UE提供服务的系统,其特征在于,所述控制方法为:
构建分布决策集中训练的深度强化学习框架,即为每个UE配置一个结构相同的神经网络,每个UE根据自身的神经网络独立的获得接入无人机基站的策略;同时设置一个具有相同神经网络的中央节点,用于从各个UE处收集经验信息并训练神经网络参数,在每个训练阶段完成后中央节点把训练好的参数传递给每一个UE;
所述中央节点从各个UE处收集经验信息的具体方法为:
UE需要根据自身状态选择合适的动作,执行后获得相应的奖励,UE的吞吐量主要与基站接入用户数和接收信号强度有关,所以i个UE的状态表示为:
其中,ui,j为定义的接入指示变量,是一个二元指示变量,即为“1”表示接入第j个无人机基站,为“0”表示没有选择接入第j个无人机基站;状态包含了该用户上一个时刻的接入指示变量ui,j(t-1),上一个时刻和此时刻的接收信号强度和各个基站在上一个时刻的接入用户数N0(t-1),ωi(t-1)表示该UE在上一个时刻的吞吐量;
UE在做出自身的接入选择之后,向选中的无人机基站发送接入请求,无人机接收请求后,对UE提供传输服务;
所有UE接入决策做完后,环境信息会进行更新,无人机基站统计自身的接入用户数将新的网络信息发送给各个UE,构成UE新的状态;所有UE将原来的状态,做出的接入选择,吞吐量情况以及新的状态传递给中央节点,中央节点对每个UE的奖励函数进行计算,将经验信息进行完善:
其中,ωi(t)表示该UE在当前时刻的吞吐量,表示该UE在进行接入选择之后对其他相关用户吞吐量的变化,定义为对其他用户性能的影响,
2.根据权利要求1所述的基于深度强化学习的无人机网络多用户接入控制方法,其特征在于,所述中央节点训练神经网络参数的具体方法为:
中央节点收集了全部UE的经验信息之后,将所有信息存储到本地一个队列形式的存储器中,将全部UE的经验信息进行汇总,然后利用随机梯度下降的方法进行随机采样,所得样本作为本次训练的训练样本,对神经网络参数进行训练。
3.根据权利要求2所述的基于深度强化学习的无人机网络多用户接入控制方法,其特征在于,所述神经网络由长短期记忆网络和全连接网络构成:其中,长短期记忆网络负责提取输入参数中的时间连续性特征,在长短期记忆网络中需要同时输入M个时刻的数据;全连接网络负责对长短期记忆网络提取到的特征进行处理,得到对应的接入策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910074944.6/1.html,转载请声明来源钻瓜专利网。