[发明专利]一种基于优先经验重放的深度强化学习频谱共享方法有效
申请号: | 201910607372.3 | 申请日: | 2019-07-07 |
公开(公告)号: | CN112383922B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 刘福来;张丹丹;杜瑞燕;张艾怡;高帆;徐嘉良;胡忠意 | 申请(专利权)人: | 东北大学秦皇岛分校 |
主分类号: | H04W16/14 | 分类号: | H04W16/14;H04W16/22;H04W52/24;H04W52/26;H04W52/28;H04W72/04;H04W72/08;H04W72/10;G06N20/00 |
代理公司: | 北京联创佳为专利事务所(普通合伙) 11362 | 代理人: | 郭防 |
地址: | 066004 河北省秦皇岛市经*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 优先 经验 重放 深度 强化 学习 频谱 共享 方法 | ||
1.一种基于优先经验重放的深度强化学习频谱共享方法,其特征在于,所述方法包括如下步骤:
S1,构建频谱共享模型;频谱共享模型包括主用户和认知用户,它们以非协作的方式工作;主用户根据自身的功率控制策略更新发射功率,认知用户采用基于优先经验重放的深度强化学习机制更新发射功率来共享主用户的频谱;
S2,在步骤S1中的频谱共享模型下,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程,训练基于样本优先经验重放的深度强化学习模型,获得认知用户功率传输的学习价值信息;
S3,根据步骤S2中所获取的认知用户功率传输学习价值信息,判断频谱大数据下频谱共享控制决策,其中,所述控制决策实现了认知用户通过调节自身传输功率在不影响主用户通信质量下共享主用户的频谱。
2.根据权利要求1所述的基于优先经 验重放的深度强化学习频谱共享方法,其特征在于,步骤S1中,采用信干噪比SINR度量主用户和认知用户的服务质量QoS;第i个接收机的SINRi为:其中,hij表示发射端i到接收端j的信道增益,pi是第i个发射端的传输功率,Ni表示第i个接收端噪声功率;假设主用户接收端和认知用户接收端成功接收传输功率必须满足一个最小SINR,即:SINRi≥μi,i=1,2;主用户功率控制策略算法为:其中,Ppu(t)表示在第t个时间帧主用户的传输功率,SINR1(t)表示在第t个时间帧主用户接收端测得的信干噪比,表示一个离散化操作,目的是将一组连续的值映射到一组离散的值上,即其中且
3.根据权利要求1所述的基于优先经验重放的深度强化学习频谱共享方法,其特征在于,所述步骤S2中,所述基于优先经验重放的深度强化学习模型的训练过程如下:
S21,初始化经验池容量为D,神经网络初始化;设定经验池为一个满二叉树,叶子节点可储存D个状态动作对;初始化Q网络的权重参数为θ,目标网络的权重参数为θ-=θ;
S22,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程,建立状态空间S(t),定义动作空间A以及即时奖赏计算模型;
S23,积累具有优先级的经验池,具体步骤如下:
S231、初始化状态空间S(1);根据当前输入状态S(1),通过Q网络得到全部动作,利用ε贪心算法选取动作,具体是以ε的概率从动作空间A选择一个动作a(t),否则以1-ε的概率选取最大Q值的动作其中t表示时间;
S232、根据步骤S1中主用户的功率更新策略更新主用户的传输功率,在执行动作a(t)后,得到即时奖励和t+1时刻的状态S(t+1);
S233、将t+1时刻的状态S(t+1)作为当前输入状态,重复步骤S231和S232,将计算得到的状态动作对和最大优先级dt=maxi<tdi存到满二叉树构成的经验池中,满二叉树中只有叶子节点储存状态动作对;
S234、重复步骤S233直到经验池的D空间被储存满,经验池的满二叉树储存满后每执行一次步骤S233便跳转执行一次步骤S24;
S24,训练频谱共享模型下深度强化学习神经网络,具体步骤如下:
S241、从满二叉树中采样小批量O的e(t),每个样本被采样的概率基于采样样本储存在一个(m,n)的二维矩阵,其中,m为样本容量大小,n为每个样本储存的信息数量,满足n=2*s+a+1,s为状态的维度,a为动作的维度,1为存储奖励信息的预留空间;
S242、对步骤S241中的小批量样本O计算每个e(t)采样样本
S243、对步骤S241中的小批量样本O计算每个e(t)样本重要性采样权重ω,采样权重主要是为了纠正网络训练过拟合问题,即:wj=(N·D(j))-β/maxiwi,其中β表示纠正程度;
S244、计算步骤S241中所有样本的时序误差并更新满二叉树中所有节点的优先级dj←|δj|;
S245、使用均方差损失函数通过神经网络的Adam梯度反向传播来更新Q网络的所有参数θ;
S246、如果t是更新步长C的整数倍,更新目标网络参数θ-=θ;
S247、如果S(t+1)是终止状态,当前训练完成,否则转到步骤S23。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学秦皇岛分校,未经东北大学秦皇岛分校许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910607372.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体器件及其制造方法
- 下一篇:一种汽车加热坐垫温度传感器固定装置