[发明专利]基于深度强化学习的无人机网络多用户接入控制方法有效
申请号: | 201910074944.6 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109743210B | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 梁应敞;曹阳;张蔺 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04W48/08;H04B7/185;H04B17/318 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 孙一峰 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 无人机 网络 多用户 接入 控制 方法 | ||
本发明属于无线通信技术领域,涉及一种基于深度强化学习的无人机网络多用户接入控制方法。本发明利用深度强化学习学习环境中固有的变化规律,提出了适应用无人机网络中多用户接入情况下的深度强化学习框架,并实现了这种在全局网络信息未知情况下基于深度强化学习的无人机网络多用户接入控制方案。本发明提出的接入控制方式与传统的接入控制方式相比能够实现更高的系统吞吐量和更低的切换次数。同时,通过调整切换惩罚项可以在吞吐量和切换次数实现不同的折中,并且在不同切换惩罚情况下性能均可得到保障。
技术领域
本发明属于无线通信技术领域,涉及一种基于深度强化学习的无人机网络多用户接入控 制方法。
背景技术
传统的接入控制技术,是利用门限比较的方式,通过选择不同的度量(例如接收信号强 度等)并选取合适的门限值实现的。当用户设备(UE)来自源基站的接收信号强度低于设定 的门限时,就会选择能够提供高于门限接收信号强度的基站进行接入。但对于利用无人机作 为基站的无人机网络,由于基站具有移动性,所以基站与用户之间的相对距离变化频繁,导 致用户处的接收信号强度变化剧烈,此时传统的接入控制技术会带来频繁切换问题,造成大 量额外的信号开销;另外,多个UE同时进行切换时,传统接入控制技术只能保证单个用户 的吞吐量,而无法保证到整体系统的吞吐量。
发明内容
为了解决传统接入控制技术在无人机网络中的频繁切换问题以及保证多用户接入情形网 络整体的吞吐量,本发明主要关注于整体系统长期的吞吐量以及切换次数情况。由于深度强 化学习在复杂的动态环境决策问题中有着优秀的性能,为了克服无人机网络环境中全局网络 信息难以收集的问题,本发明利用深度强化学习学习环境中固有的变化规律,提出了适应用 无人机网络中多用户接入情况下的深度强化学习框架,并实现了这种在全局网络信息未知情 况下基于深度强化学习的无人机网络多用户接入控制方案。
在本发明中从利用无人机作为移动基站为地面用户提供服务的角度出发建立系统模型, 无人机依据预先设定的轨道进行移动为地面UE提供下行传输服务。在本发明中,每个UE 被视为独立的决策者,在每个时隙选择一个合适的无人机基站进行接入。本发明将决策过程 完全交予UE执行,无人机基站只负责接收接入请求并提供传输服务。在本发明中,多个UE 之间在决策过程中不存在信息交互,也就是说UE的决策过程仅依赖于自身所获得的网络信 息,降低了整体的信号开销。
为了解决多用户接入决策问题,本发明提出了一种分布决策集中训练的深度强学习框架, 即存在一个中央节点负责对所有UE的神经网络参数进行训练。在本发明所提出的深度强化 学习框架中,每个UE配有一个结构相同的神经网络,利用本地的网络信息输入神经网络后 得到相应的接入策略;中央节点则负责从各个UE处收集经验信息并训练神经网络参数,在每 个训练阶段完成后中央节点会把训练好的参数传递给用户。UE从中央节点获取训练好的神经 网络参数后,对本地的神经网络参数进更新。本发明将决策和训练过程分隔开,使UE只需 利用训练好的神经网络,降低了UE处的计算复杂度。
为了解决无人机网络中基站位置信息难以收集的问题,本发明在用户状态的设计上避开 了位置信息,主要采用用户的接收信号强度等信息,这些信息可以在本地直接进行测量。为 了避免频繁切换的发生和保证多用户情况下整体网络的吞吐量性能,本发明不仅在深度强化 学习奖励函数的设计中考虑了用户自身的吞吐量,还考虑了对UE进行切换抑制以及单个UE 接入动作对其他相关UE的影响。
本发明为了更好地捕捉和学习UE处的接收信号强度变化规律,在神经网络设计中还引 入了长短期记忆(LSTM)网络。本发明的神经网络设计简单,在利用LSTM提取特征后交由三层全连接网络进行处理,获得相应的接入决策输出。
本发明提出的接入控制方式与传统的接入控制方式相比能够实现更高的系统吞吐量和更 低的切换次数。同时,通过调整切换惩罚项可以在吞吐量和切换次数实现不同的折中,并且 在不同切换惩罚情况下性能均可得到保障。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910074944.6/2.html,转载请声明来源钻瓜专利网。