[发明专利]一种基于深度强化学习的全双工认知通信功率控制方法有效
申请号: | 202110473425.4 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113225794B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 卜智勇;鲁敏;周斌 | 申请(专利权)人: | 成都中科微信息技术研究院有限公司 |
主分类号: | H04W52/14 | 分类号: | H04W52/14;H04W52/24;H04W52/26;G06N3/08 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 徐静 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 双工 认知 通信 功率 控制 方法 | ||
1.一种基于深度强化学习的全双工认知通信功率控制方法,其特征在于,包括如下步骤:
步骤1,建立全双工认知通信系统;所述全双工认知通信系统包括一对下行链路模式下工作在半双工模式下的主用户发射机TX1和主用户接收机RX1,一个工作在全双工模式下的次用户发射机TX2,以及一个工作在半双工模式下的次用户接收机RX2;
步骤2,初始化所述全双工认知通信系统的系统参数;
步骤3,基于主用户发射机TX1和次用户发射机TX2的某发射功率,计算主用户接收机RX1和次用户接收机RX2相应的信干噪比;
步骤4,初始化主用户发射机TX1,次用户发射机TX2的发射功率以及动作集合,构建次用户发射机TX2功率控制的马尔可夫决策模型;
步骤5,基于所述次用户发射机TX2功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机TX2的功率控制策略;
步骤6,采用所述最优的次用户发射机TX2的功率控制策略进行次用户发射机TX2的功率控制;
步骤1中所述全双工认知通信系统中的主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2设置如下:
(1)次用户发射机TX2具有自干扰消除能力,并能够在同一时间和频率上进行信号的发送和接收;
(2)主用户发射机TX1、主用户接收机RX1和次用户接收机RX2不具备自干扰消除能力,在同一时间和频率上进行信号的发送或者接收;
(3)主用户发射机TX1与次用户发射机TX2采用不同的功率控制方法,即主用户发射机TX1采用预先定义的功率控制算法,次用户发射机TX2采用所述基于深度强化学习的全双工认知通信功率控制方法;
(4)主用户发射机TX1与次用户发射机TX2彼此不知道对方的功率控制方法;
(5)主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2均工作在相同频段上;
步骤2中所述初始化所述全双工认知通信系统的系统参数包括初始化所述全双工认知通信系统中的所有信道增益,次用户发射机的自干扰消除系数,噪声功率,发射功率集合,以及接收机的服务质量要求;其中:
主用户发射机TX1与主用户接收机RX1的信道增益为h11,主用户发射机TX1与次用户接收机RX2的信道增益为h12、次用户发射机TX2与次用户接收机RX2的信道增益为h22、次用户发射机TX2与主用户接收机RX1的信道增益为h21;主用户发射机TX1与次用户发射机TX2的信道增益为hps;
次用户发射机TX2的自干扰消除系数χ,χ∈[0,1];
噪声功率为Pn;
发射功率共有k档,发射功率集合为PT,PT={p1,p2,......,pk},其中p1<p2<......<pk;
主用户接收机RX1满足服务质量要求的最小信干噪比为τ1∈[0,1],次用户接收机RX2满足服务质量要求的最小信干噪比为τ2∈[0.5,1.5],且τ1<τ2;
步骤3中所述基于发射机发射的某功率信号计算接收机相应的信干噪比的方法包括:
主用户接收机RX1的信干噪比SINR1为:
次用户接收机RX2的信干噪比SINR2为:
其中,P1为主用户发射机TX1的发射功率,P2为次用户发射机TX2的发射功率;
步骤4中所述构建次用户发射机TX2功率控制的马尔可夫决策模型的方法包括:
(1)初始化主用户发射机TX1的发射功率P1∈PT,次用户发射机TX2的发射功率P2∈PT,动作选择空间A=PT;
(2)得到主用户发射机TX1的观测功率信号并通过功率信号抽样将观测功率信号离散化,得到系统状态离散化表示:K表示系统状态数量;
(3)定义系统奖励函数,确定次用户发射机TX2在执行每个动作a∈A即选取动作集合A中的某个发射功率时得到的奖励值r,若SINR1>τ1且SINR2>τ2,记录奖励值r=Rc,否则记奖励值r=0;
步骤5中所述目标函数定义为:
其中,Rt表示t时刻累积奖励函数,即要优化的所述目标函数;rl(sl,al)表示l时刻基于状态-动作对(sl,al)的奖励值,sl表示第l个状态,al表示与sl对应的动作;λ表示奖励值衰减因子,取值范围为(0,1];
步骤5中所述运用深度强化学习中的DQN算法训练优化目标函数的方法包括:
步骤5-1,构建两个结构相同的卷积神经网络,其中一个记作CNN1;另一个为目标网络,记作CNN2;
步骤5-2,初始化网络CNN1的参数θ,目标网络CNN2的参数θ-,数据容器ME的缓存容量NE以及目标网络CNN2更新步数T;
步骤5-3,生成经验数据ei=(si,ri,ai,si+1)并存储在数据容器ME中;i表示生成经验数据的时刻;
步骤5-4,当存储在数据容器ME中的经验数据超过缓存容量NE时,随机抽取B条经验数据传到网络CNN1中,B<NE,通过最小化损失函数进行训练;
步骤5-5,每经过T步对目标网络CNN2进行更新,即令θ-=θ;
步骤5-6,判断训练迭代次数是否达到最大值,如果是,则训练结束,得到最优的次用户发射机TX2的功率控制策略;否则,返回步骤5-3继续训练;
步骤5-4中所述损失函数定义为:
θ:minL(θ)=E[Qtarget(s,a;θ-)-Q(s,a;θ)] (4)
其中,L(θ)表示损失函数的值,Qtarget(s,a;θ-)表示目标网络CNN2的Q值,Q(s,a;θ)表示网络CNN1的Q值,E[]表示期望运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都中科微信息技术研究院有限公司,未经成都中科微信息技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110473425.4/1.html,转载请声明来源钻瓜专利网。