[发明专利]一种基于DDPG的能量可收集通信的比特率优化方法有效
申请号: | 201811305167.3 | 申请日: | 2018-11-02 |
公开(公告)号: | CN109548044B | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 陈彦;邱成润;胡洋 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04W24/02 | 分类号: | H04W24/02;H04W24/06;G06N3/08;G06N3/04 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 李明光 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于DDPG的能量可收集通信的比特率优化算法,属于绿色通信与深度强化学习技术领域。本发明所述算法首先通过环境在当前在线网络中得到当前一个策略,加上噪声后得到当前一个动作;将该动作作用于交互环境后得到下一时刻的状态与当前赏值,并于该时刻动作与状态打包成一个集合存储于回放存储中;如果存储已满,则开始训练DDPG网络。训练时,首先通过小批量的集合取出对应的状态,然后用Actor目标网络生成一个动作,然后通过优化器优化Critic在线网络;之后Critic的在线网络将动作的梯度传递给Actor网络,并通过优化器更新Actor在线网络。最后两个网络的目标网络对自身进行软更新。 | ||
搜索关键词: | 一种 基于 ddpg 能量 收集 通信 比特率 优化 方法 | ||
【主权项】:
1.一种基于DDPG的能量可收集通信的比特率优化算法,其特征在于,包括训练部分和应用部分:训练部分包括以下步骤:步骤1.设置初始参数:DDPG参数:训练总次数T,训练集数据长度L,Actor网络学习率lrA,Critic网络学习率lrC,折扣因子γ,软更新因子τ,回访存储容量B,小批量长度N,高斯分布行为噪声n0,噪音衰减因子κ,缩放因子λ1、λ2;能量可收集通信参数:初始训练集的可收集能量EH,初始训练集的衰落信道增益ζ,调制方式m、平均信道噪声功率N0,包传输耗时TP,包中所含符号数Ls,符号所含比特数χm,一次传输策略周期时间长度TL;计算初始训练集的平均可收集能量
平均衰落信道增益
可收集能量方差
衰落信道增益方差
1≤l≤L;令当前训练次数t=0,当前时刻l=0;步骤2.通过Actor的在线网络得到l时刻的决策al=min(max(μ(sl|θμ+n0),0),1),其中,μ为在线网络的策略函数,sl为l时刻的状态,θμ为Actor在线网络的神经网络节点值,min表示求最小值,max表示求最大值;步骤3.通过训练样本计算l+1时刻的状态sl+1=(bl+1,ζl+1,EH,l+1),其中,bl+1为l+1时刻的电池能量,ζl+1为l+1时刻的衰落信道增益,EH,l+1为l+1时刻的可收集能量,bl+1=min(bl+EH,l‑albl,bmax),bmax为电池容量;步骤4.计算l时刻的奖赏值:
其中误码率:
其中,erfc为误差函数;当调制模式m为QPSK时,r取0,(α(m,0),β(m,0))=(1,1);当调制模式m为8PSK时,r取0或1,![]()
当调制模式m为16QAM时,r取0或1,![]()
步骤5.向回访存储中存储集合(sl,al,ri,sl+1),若存储已满则按顺序覆盖,行为噪声n0=n0×κ;步骤6.判断回访存储是否已满,若是,则跳转步骤11,若否,则跳转步骤7;步骤7.在回访存储中随机选择N个集合(si,ai,ri,si+1),1≤i≤N,对si和si+1作状态归一处理;步骤8.计算yi=ri+γQ′(si+1,μ′(si+1)|θQ′),其中,μ′为目标网络的策略函数,Q′为Critic目标网络评价函数,θQ′为Critic目标网络的神经网络节点值,通过最小化损失
来更新Critic的在线网络,其中,Q为Critic在线网络评价函数,θQ为Critic在线网络的神经网络节点值;步骤9.通过梯度
更新Actor的在线网络,其中,θμ为Actor在线网络的神经网络节点值;步骤10.软更新Actor与Critic的目标网络:θQ′=τθQ+(1‑τ)θQ′,θμ′=τθμ+(1‑τ)θμ′,θμ′为Actor目标网络的神经网络节点值;步骤11.判断l是否等于L,若是,则跳转步骤12,若否,则跳转步骤2,且l=l+1;步骤12.判断t是否等于T,若是,则跳转步骤13,若否,则跳转步骤2,且t=t+1,l=0;步骤13.训练算法结束,保存Actor在线网络;应用部分包括以下步骤:步骤1.计算归一化后的状态
其中,btt为当前时刻tt的电池能量,ζtt为当前时刻tt的衰落信道增益,EH,tt为当前时刻tt的可收集能量;步骤2.利用Actor在线网络输出最佳决策att=μ(stt′|θμ),则需要分配的能量为attbtt;步骤3.继续读取下一时刻的状态,若能读取到则转至步骤1,若不能读取到则结束运算。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811305167.3/,转载请声明来源钻瓜专利网。