[发明专利]一种基于深度强化学习的多信道智能接入方法有效

申请号：	201910946631.5	申请日：	2019-10-06
公开（公告）号：	CN110691422B	公开（公告）日：	2021-07-13
发明（设计）人：	赵楠;程一强;刘畅;裴一扬;刘聪;曾春艳;贺潇;刘泽华	申请（专利权）人：	湖北工业大学
主分类号：	H04W74/08	分类号：	H04W74/08;G06N3/04;G06N3/08
代理公司：	武汉帅丞知识产权代理有限公司 42220	代理人：	刘丹;朱必武
地址：	430068 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习信道智能接入方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于无线通信技术领域，具体涉及一种基于深度强化学习的多信道智能接入方法，旨在将深度强化学习策略引入到多信道接入，以期实现多信道的智能接入。针对现有多信道接入策略较难适应信道环境动态性问题，本发明提出基于深度强化学习的多信道智能接入方法。首先，将多信道智能接入问题建模为离散状态与动作空间的马尔可夫决策过程，提出Q‑learning方法以实现多信道的智能接入。在此基础上，针对Q‑learning状态空间大和收敛慢等特点，通过设计深度神经网络，利用梯度下降法来训练深度神经网络的权值，修正损失函数解决状态‑动作函数过高估计问题，以获得近似最优的多信道智能接入策略。

技术领域

本发明属于无线通信技术领域，具体涉及一种基于深度强化学习的多信道智能接入方法。

背景技术

随着无线通信技术的迅速发展，频谱资源的需求越来越高。频谱资源日益匮乏，已成为制约无线通信发展的严峻问题。多信道接入方法因其能够有效地提高频谱资源的利用率，受到研究者的广泛关注。

然而，多信道接入方法往往需要大量网络信息；同时，当信道状态发生变化时，很难有效地实现信道的智能接入。因此，如何实现多信道的智能接入是一个值得研究的问题。近年来，深度强化学习方法因其强大的学习能力，在智能决策、无人驾驶、边缘卸载等领域取得了一些研究进展。

因此，受到深度强化学习的启发，本发明旨在将强化学习策略引入到多信道接入，以期实现多信道的智能接入。在建立多信道接入模型的基础上，将多信道智能接入问题建模为离散状态与动作空间的马尔可夫决策过程。针对Q-learning状态空间大和收敛慢等问题，通过设计深度神经网络，利用梯度下降法来训练深度神经网络的权值，采用经验回放策略降低数据的相关性，修正损失函数解决状态-动作函数过高估计问题，以获得近似最优的多信道智能接入策略。

发明内容

为了克服现有多信道接入策略较难适应信道环境动态性问题，本发明的目的在于提出一种基于深度强化学习的多信道智能接入方法。

为了达到上述目的，本发明所采用的技术方案是：一种基于深度强化学习的多信道智能接入方法，其特征在于，所述方法包括如下步骤：

步骤1，将多信道接入模型描述成马尔可夫决策过程；

步骤2，在此基础上，提出Q-learning方法以实现多信道的智能接入；

步骤3，通过设计深度神经网络，以获得近似最优的多信道智能接入策略；

步骤4，采用经验回放策略，以降低数据的相关性；

步骤5，设计基于深度强化学习多信道智能接入算法。

进一步地，步骤1中，所述将多信道接入模型描述成马尔可夫决策过程包括：

假设用户在从N个信道的选择接入某一信道的过程中，会受到从第1个到第N个信道的周期性外部干扰，同时，考虑到用户当前时刻接入信道所获得的效用仅与当前信道状态有关，与信道之前状态无关，上述多信道接入过程可描述为一个马尔可夫决策过程(S；A；p(s′|s,a)；r；π(a|s))，具体描述如下：

状态空间S：当前时刻各信道状态s的集合，0表示某一信道处于空闲状态，1表示某一信道已被占用，于是，N个信道的状态空间S为2^N；

动作空间A：选择某一信道动作a的集合；