[发明专利]基于深度强化学习的频谱资源管理方法有效
申请号: | 201811525017.3 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109639377B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 李赞;廖晓闽;石嘉;司江勃;林初善;齐佩汉;赵钟灵;王丹阳 | 申请(专利权)人: | 西安电子科技大学;西安中电科西电科大雷达技术协同创新研究院有限公司 |
主分类号: | H04B17/382 | 分类号: | H04B17/382;H04L12/24;H04B17/309 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于深度强化学习的频谱资源管理方法。主要解决现有技术不能有效利用不完全信道状态信息进行频谱和功率分配以及频谱资源管理多目标优化的问题。其实现方案是,以频谱效率最大化为优化目标,构造以信道增益和噪声功率为权值参数的自适应深度神经网络;初始化权值参数,观测用户接入信息和干扰信息,根据通信网络能量效率和公平性计算损失函数,沿着损失函数梯度下降方向逐层更新信道增益和噪声功率,反复训练自适应深度神经网络,当满足训练结束条件,输出最优频谱资源管理策略。本发明能基于不完全信道状态信息得到最优频谱资源管理策略,有效提升了通信网络的频谱效率、能量效率和公平性,可用于无线通信中的频谱和功率分配。 | ||
搜索关键词: | 基于 深度 强化 学习 频谱 资源管理 方法 | ||
【主权项】:
1.一种基于深度强化学习的频谱资源管理方法,其特征在于,包括:(1)构造自适应深度神经网络:以频谱效率最大化为优化目标,在子载波发送功率满足总功率约束条件下,对频谱效率进行优化,构建增广拉格朗日函数,形成频谱分配策略功率分配策略Pn,m和拉格朗日乘子λn的迭代更新数据流,构造以信道增益hn,m和噪声功率为权值参数的自适应深度神经网络,该自适应深度神经网络包括数据输入层、多层频谱更新层、多层功率更新层和多层乘子更新层以及策略输出层;(2)训练自适应深度神经网络:2a)初始化自适应深度神经网络权值参数,即将信道增益hn,m初始化为瑞利分布,将噪声功率初始化为高斯白噪声;2b)在时刻t,将观测到的通信网络用户接入信息和干扰信息输入到自适应深度神经网络的状态输入层,经过自适应深度神经网络前向传输后,在策略生成层输出一组数值,每一个数值对应一种频谱分配策略和功率分配策略,从策略生成层输出的数值中寻找出最大数值并将最大数值所对应的频谱分配策略和功率分配策略作为时刻t的频谱资源管理策略;2c)计算通信网络的能量效率和公平性,观测通信网络用户接入信息和干扰信息将通信网络的能量效率和公平性作为自适应深度神经网络的回报值rt+1,将观测到的用户接入信息和干扰信息重新输入到自适应深度神经网络的状态输入层,经过自适应深度神经网络前向传输后,从策略生成层输出的数值中寻找最大数值并将最大数值所对应频谱分配策略和功率分配策略作为时刻t+1的频谱资源管理策略;2d)设定折扣因子γ,计算损失函数值Q:2e)设定阈值μ,将损失函数值Q与阈值μ比较:若损失函数值Q≥μ,则执行2f),否则,将2b)选定的频谱分配策略和功率分配策略作为最优频谱资源管理策略,完成频谱资源管理;2f)采用反向传播算法,使损失函数值Q趋于最小化,沿着损失函数梯度下降方向逐层更新自适应深度神经网络的权值参数,即更新信道增益hn,m和噪声功率当权值参数更新次数达到限定的最大次数A时,将2b)选定的频谱分配策略和功率分配策略作为最优频谱资源管理策略,完成频谱资源管理,否则,返回2b)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;西安中电科西电科大雷达技术协同创新研究院有限公司,未经西安电子科技大学;西安中电科西电科大雷达技术协同创新研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811525017.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种电力无线专网系统的频谱扫描方法
- 下一篇:矩形隧道无线传播信道建模方法