[发明专利]一种基于深度强化学习的无线传输空时频资源配置方法在审
申请号: | 202210839976.2 | 申请日: | 2022-07-18 |
公开(公告)号: | CN115460699A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 赵军辉;张欢 | 申请(专利权)人: | 北京交通大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;H04W4/02;G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京卫平智业专利代理事务所(普通合伙) 11392 | 代理人: | 闫萍 |
地址: | 100044*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 无线 传输 空时频 资源配置 方法 | ||
1.一种基于深度强化学习的无线传输空时频资源配置方法,其特征在于,包括如下步骤:
S1、采用密度聚类算法对用户聚类,所述密度聚类算法的输入包括用户位置信息、用户与基站之间的角度正弦值,输出为用户聚类标签;
S2、采用迫零波束成形方法为步骤S1中的不同聚类在空域上配置不同波束,所述迫零波束成形所需要的信道状态信息为每个聚类中用户的平均信道状态信息;
S3、以用户的位置、行驶速度、行驶方向、用户被哪个基站覆盖、用户与基站的角度和用户聚类标签作为状态,以选择子载波作为动作,以传输速率作为奖励,为了使得系统的总传输速率最大,利用深度强化学习算法为不同的用户学习一种一个时隙内子载波资源的分配方法。
2.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法,其特征在于,所述步骤S1中用户的初始位置信息在基站覆盖范围内随机生成,车辆用户位置在道路上生成,行人用户在非道路上生成。
3.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法,其特征在于,所述步骤S1中密度聚类算法的实施主体为基站上的边缘服务器。
4.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法,其特征在于,所述步骤S2中聚类的平均信道状态信息矩阵为H,利用迫零波束成形方案得到的波束矩阵W=HT(HHT)-1。
5.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法,其特征在于,所述步骤S2中用户的信道状态信息由基站采集。
6.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法,其特征在于,所述步骤S3深度强化学习算法具体包括经验存储过程、Q估计网络训练过程和推理过程;
所述经验存储过程包括以下步骤:
S311、将当前用户状态信息输入Q估计网络,Q估计网络输出各动作的Q值,以概率ε选择Q值最大的动作;
S312、将动作作用于环境,得到奖励值与下一个状态;
S313、将由当前状态、动作、奖励和下一个状态组成的元组储存在经验回放池中,所述经验回放池用于神经网络的训练;
所述Q估计网络训练过程包括以下步骤:
S321、从步骤S313所述经验回放池中抽取小批量数据,数据的当前状态st输入到Q估计网络,估计当前状态下各个动作的Q估计值Q估计(st);
S322、数据中的下一个状态st+1输入到Q目标网络中,得到相应的Q值Q(st+1),并依据Q现实(st+1)=rt+γmaxQ(st+1)得到Q现实值,其中,rt为上一状态的奖励值,γ为奖励衰减值。其次,所述Q目标网络的结构与所述Q估计网络的结构相同,当系统传输速率增大时,Q估计网络的权重参数赋给Q目标网络;
S323、以Q现实值与Q估计值的均方差作为损失函数计算损失;
S324、将损失值反馈至Q估计网络,利用优化器优化Q估计网络中的权重参数;
所述推理过程包括:
将用户状态信息输入给Q估计网络来选择Q值最大的子载波。
7.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法,其特征在于,所述步骤S3中深度强化学习算法在基站上的边缘服务器中运行。
8.如权利要求6所述的基于深度强化学习的无线传输空时频资源配置方法,其特征在于,所述Q估计网络和Q目标网络均由三层神经网络所构成,两层隐藏层的节点数均为10,激活函数为ReLu函数。
9.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法,其特征在于,所述传输速率通过以下公式计算:
第i个基站到第k个用户在波束c下的第m个子载波上的下行信道表示为:
式中,M为子载波个数,PL为路径损耗,为路径数,为路径增益,为第p条路径的发射角,为与发射角相关的响应向量;
第i个基站到第k个用户在波束c下的第m个子载波上的信道干扰噪声比表示为:
式中,Po、和N0分别表示发送功率、被同一基站覆盖的用户间干扰、被不同基站覆盖的用户使用相同子载波的干扰以及高斯噪声,为波束矩阵W的分量;
用户的通信速率表示为:
式中,B为系统带宽,M为子载波数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210839976.2/1.html,转载请声明来源钻瓜专利网。