[发明专利]一种基于DDPG的能量可收集通信的比特率优化方法有效

专利信息
申请号: 201811305167.3 申请日: 2018-11-02
公开(公告)号: CN109548044B 公开(公告)日: 2020-11-17
发明(设计)人: 陈彦;邱成润;胡洋 申请(专利权)人: 电子科技大学
主分类号: H04W24/02 分类号: H04W24/02;H04W24/06;G06N3/08;G06N3/04
代理公司: 电子科技大学专利中心 51203 代理人: 李明光
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于DDPG的能量可收集通信的比特率优化算法,属于绿色通信与深度强化学习技术领域。本发明所述算法首先通过环境在当前在线网络中得到当前一个策略,加上噪声后得到当前一个动作;将该动作作用于交互环境后得到下一时刻的状态与当前赏值,并于该时刻动作与状态打包成一个集合存储于回放存储中;如果存储已满,则开始训练DDPG网络。训练时,首先通过小批量的集合取出对应的状态,然后用Actor目标网络生成一个动作,然后通过优化器优化Critic在线网络;之后Critic的在线网络将动作的梯度传递给Actor网络,并通过优化器更新Actor在线网络。最后两个网络的目标网络对自身进行软更新。
搜索关键词: 一种 基于 ddpg 能量 收集 通信 比特率 优化 方法
【主权项】:
1.一种基于DDPG的能量可收集通信的比特率优化算法,其特征在于,包括训练部分和应用部分:训练部分包括以下步骤:步骤1.设置初始参数:DDPG参数:训练总次数T,训练集数据长度L,Actor网络学习率lrA,Critic网络学习率lrC,折扣因子γ,软更新因子τ,回访存储容量B,小批量长度N,高斯分布行为噪声n0,噪音衰减因子κ,缩放因子λ1、λ2;能量可收集通信参数:初始训练集的可收集能量EH,初始训练集的衰落信道增益ζ,调制方式m、平均信道噪声功率N0,包传输耗时TP,包中所含符号数Ls,符号所含比特数χm,一次传输策略周期时间长度TL;计算初始训练集的平均可收集能量平均衰落信道增益可收集能量方差衰落信道增益方差1≤l≤L;令当前训练次数t=0,当前时刻l=0;步骤2.通过Actor的在线网络得到l时刻的决策al=min(max(μ(sl|θμ+n0),0),1),其中,μ为在线网络的策略函数,sl为l时刻的状态,θμ为Actor在线网络的神经网络节点值,min表示求最小值,max表示求最大值;步骤3.通过训练样本计算l+1时刻的状态sl+1=(bl+1,ζl+1,EH,l+1),其中,bl+1为l+1时刻的电池能量,ζl+1为l+1时刻的衰落信道增益,EH,l+1为l+1时刻的可收集能量,bl+1=min(bl+EH,l‑albl,bmax),bmax为电池容量;步骤4.计算l时刻的奖赏值:其中误码率:其中,erfc为误差函数;当调制模式m为QPSK时,r取0,(α(m,0),β(m,0))=(1,1);当调制模式m为8PSK时,r取0或1,当调制模式m为16QAM时,r取0或1,步骤5.向回访存储中存储集合(sl,al,ri,sl+1),若存储已满则按顺序覆盖,行为噪声n0=n0×κ;步骤6.判断回访存储是否已满,若是,则跳转步骤11,若否,则跳转步骤7;步骤7.在回访存储中随机选择N个集合(si,ai,ri,si+1),1≤i≤N,对si和si+1作状态归一处理;步骤8.计算yi=ri+γQ′(si+1,μ′(si+1)|θQ′),其中,μ′为目标网络的策略函数,Q′为Critic目标网络评价函数,θQ′为Critic目标网络的神经网络节点值,通过最小化损失来更新Critic的在线网络,其中,Q为Critic在线网络评价函数,θQ为Critic在线网络的神经网络节点值;步骤9.通过梯度更新Actor的在线网络,其中,θμ为Actor在线网络的神经网络节点值;步骤10.软更新Actor与Critic的目标网络:θQ′=τθQ+(1‑τ)θQ′,θμ′=τθμ+(1‑τ)θμ′,θμ′为Actor目标网络的神经网络节点值;步骤11.判断l是否等于L,若是,则跳转步骤12,若否,则跳转步骤2,且l=l+1;步骤12.判断t是否等于T,若是,则跳转步骤13,若否,则跳转步骤2,且t=t+1,l=0;步骤13.训练算法结束,保存Actor在线网络;应用部分包括以下步骤:步骤1.计算归一化后的状态其中,btt为当前时刻tt的电池能量,ζtt为当前时刻tt的衰落信道增益,EH,tt为当前时刻tt的可收集能量;步骤2.利用Actor在线网络输出最佳决策att=μ(stt′|θμ),则需要分配的能量为attbtt;步骤3.继续读取下一时刻的状态,若能读取到则转至步骤1,若不能读取到则结束运算。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811305167.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top