[发明专利]一种基于深度强化学习的智能反射面调控方法及装置有效
申请号: | 202011135884.3 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112019249B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 龚世民;陈希雨;林嘉烨;谭源正 | 申请(专利权)人: | 中山大学 |
主分类号: | H04B7/06 | 分类号: | H04B7/06;G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭帅 |
地址: | 510000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 智能 反射 调控 方法 装置 | ||
本发明提供了一种基于深度强化学习的智能反射面调控方法及装置,其中方法包括:策略网络根据第一状态生成第一动作;将幅值固定并输入优化模块,更新第一动作得到第二动作,同时得到第一目标值;将第二动作作用于无线环境得到第二状态,得到一个新样本并存入经验池;策略网络和价值网络根据样本进行深度确定性策略梯度训练,执行者利用深度确定性策略梯度方法更新其参数;根据第一目标值和目标Q网络产生的第二目标值确定第三目标值,根据第三目标值训练在线Q网络的DNN并更新其参数;重复执行上述步骤直至得到最小化AP发射功率的网络参数并输出。本发明能在更短的时间内实现稳定且高效地学习,可以更快地收敛到最优目标。
技术领域
本发明涉及无线通信网络技术领域,尤其是涉及一种基于深度强化学习的智能反射面的调控方法及装置。
背景技术
目前,IRS被认为是一种非常具有潜力和发展前景的技术,IRS由大量无源反射元件组成,这些元件相互连接并由嵌入式IRS控制器进行控制它可以用于提高无线通信的能量和频谱效率。通过对所有反射元件的复反射系数进行联合控制,即被动波束成形,增强接收器的信号强度。IRS的被动波束成形技术以及收发器的传输控制技术可以进一步提高网络性能。IRS已应用于各种场景中,其在无线通信中扮演着不同的角色,例如环境反射器,信号发送器甚至接收器。IRS的使用旨在提高信噪比(SNR)或频谱效率,改善功耗或能量效率以及增强安全性。IRS还可用于增强无线功率传输、移动边缘计算和车辆通信等。
现有技术通常基于交替优化(AO)框架,并保证收敛至次优解决方案。在AO框架的每次迭代中,通常需要使用半定松弛(SDR)或凸近似来优化主动或被动波束成形。作为一种启发式方法,我们无法准确知道AO方法的性能损失,并且难以准确地进行表征。此外,优化方法还存在一些实际困难。随着IRS散射元素的尺寸变大,AO方法的计算复杂度可能会显著增加,这使得相关技术在动态环境中难以实施。同时,基于机器学习的技术虽也有应用,尽管DRL方法可以从头开始学习最佳策略,但通常收敛速度慢。
发明内容
本发明的目的是提供一种基于深度强化学习的智能反射面的调控方法及装置,以解决传统的深度强化学习方法学习效率较低、稳定性较差的技术问题。
本发明的目的,可以通过如下技术方案实现:
一种基于深度强化学习的智能反射面调控方法,包括:
S1:策略网络根据无线环境的状态即第一状态生成第一动作;其中,所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值;
S2:将所述幅值固定并输入基于模型的优化模块,更新所述第一动作得到第二动作,同时得到第一目标值;其中,所述第一目标值为优化模块确定的优化问题目标值的下界;
S3:将所述第二动作作用于无线环境得到第二状态,得到一个新的样本并存入经验池;其中,所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成;
S4:策略网络根据所述经验池的样本进行深度确定性策略梯度训练,当前执行者利用深度确定性策略梯度方法更新其参数;
S5:价值网络根据所述经验池的样本进行深度确定性策略梯度训练,根据所述第一目标值和第二目标值确定第三目标值,根据所述第三目标值训练在线Q网络的DNN并更新其参数;其中,第二目标值为目标Q网络产生的优化问题目标值;
S6:重复执行S1-S5直至发射端发射功率的变化幅度小于预设的阈值,得到满足用户特定信噪比约束的前提下,最小化AP发射功率的网络参数,输出当前状态的波束成形策略、反射元的反射相位及反射元的幅值。
可选地,还包括:发射端通过下行控制信道将波束成形策略、反射元的反射相位及反射元的幅值发送至网络设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011135884.3/2.html,转载请声明来源钻瓜专利网。