[发明专利]基于DRL的RIS辅助用户中心化去蜂窝系统中资源管理半并行方法在审
申请号: | 202210006092.9 | 申请日: | 2022-01-05 |
公开(公告)号: | CN114364034A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 吕铁军;崔莹萍;黄平牧 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;G06N3/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 drl ris 辅助 用户 中心 蜂窝 系统 资源管理 并行 方法 | ||
1.本发明提供了一种在RIS辅助的UCCF上行传输系统中用于求解最优AUA、UEs发射功率以及RISs反射系数的智能算法框架,用于以下场景:AP和UE间的通信由RIS辅助增强;其中AP负责收集信道估计信息(CSI)并进行信道估计,且导频之间是互相正交的;中央处理单元(CPU)根据上行系统和速率进行AUA矩阵优化,CPU处的智能体进行用户发射功率和RIS相移配置。
(11)基于RIS辅助UCCF上行系统最大化系统可达速率的联合优化框架设计:以AUA,UEs传输功率和RISs反射系数(一个离散变量和两个连续变量)为优化变量,建立联合优化任务。首先将该任务解耦为AUA和PRCM两个子任务。
(12)基于用户中心化的AUA设计:基于环境信息和PRCM结果,更新AUA模块的输入,利用二进制粒子群优化(BPSO)算法执行AUA矩阵的优化。
(13)基于DRL的PRCM并联优化框架设计:基于AUA结果和静态环境信息,采用由两个并联的DRL的智能优化框架与环境进行交互,更新神经网络参数,输出用户传输功率和RISs反射系数动作。
(14)根据预先设计的迭代策略,迭代(2),(3),直至PRCM模块的奖励收敛。
2.根据权利要求1所述的方法,所述步骤(1)中,基于用户中心化的AUA设计包括下列的操作内容:
(21)基于初次迭代的初始化或者PRCM模块输出的功率-相移联合动作,建立BPSO算法的模型寻找AUA矩阵的最优解。首先根据初始化信息计算出当前初始化的每个粒子个体最优和全局最优粒子的位置及其对应的适应值。
(22)在每次迭代中根据适应度函数更新粒子的位置和速度,每轮迭代后,更新每个粒子个体最优位置和适应值以及粒子群的全局最优的位置和适应值。
(23)重复步骤(22),将适应值收敛后输出的全局最优粒子的位置视为当前最优的关联矩阵的解。
(24)判断此时关联矩阵是否满足约束,若满足约束输出给PRCM模块,若不满足约束,重复进行(22),(23),直至满足约束输出。
3.根据权利要求1所述的方法,所述步骤(3)进一步包括下列操作内容:
(31)为了有效解决两个不同取值范围、不同分布的的两个优化变量,我们将其分解为两个子模块:功率学习(PL)子模块和反射系数学习(RCL)子模块。将其建模为两个半独立的马尔科夫过程
(32)首先,利用RIS辅助UCCF的通信系统中CSI、SINR、用户传输功率等信息建模环境、动作、状态、奖励。
(33)PL和RCL子模块中分别搭建一个TD3网络。智能体与环境交互获得当前时刻的状态,输入到PL和RCL网络执行当前策略,得到联合动作。在环境中进行运算,得到当前状态下执行该动作所获得的回报和下一时刻的状态,存入经验回放库。
(34)PL和RCL分别在经验回放库中通过小批次采样的方法采样数据,根据预先设计好的更新策略,更新网络参数。
(35)重复步骤(33)-(34),直到奖励收敛。将此时的动作分解为用户功率和RIS反射系数,输入给(2)中所述的AUA模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210006092.9/1.html,转载请声明来源钻瓜专利网。