[发明专利]一种基于DDPG的能量可收集通信的比特率优化方法有效

申请号：	201811305167.3	申请日：	2018-11-02
公开（公告）号：	CN109548044B	公开（公告）日：	2020-11-17
发明（设计）人：	陈彦;邱成润;胡洋	申请（专利权）人：	电子科技大学
主分类号：	H04W24/02	分类号：	H04W24/02;H04W24/06;G06N3/08;G06N3/04
代理公司：	电子科技大学专利中心 51203	代理人：	李明光
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于DDPG的能量可收集通信的比特率优化算法，属于绿色通信与深度强化学习技术领域。本发明所述算法首先通过环境在当前在线网络中得到当前一个策略，加上噪声后得到当前一个动作；将该动作作用于交互环境后得到下一时刻的状态与当前赏值，并于该时刻动作与状态打包成一个集合存储于回放存储中；如果存储已满，则开始训练DDPG网络。训练时，首先通过小批量的集合取出对应的状态，然后用Actor目标网络生成一个动作，然后通过优化器优化Critic在线网络；之后Critic的在线网络将动作的梯度传递给Actor网络，并通过优化器更新Actor在线网络。最后两个网络的目标网络对自身进行软更新。
搜索关键词：	一种基于 ddpg 能量收集通信比特率优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于DDPG的能量可收集通信的比特率优化算法，其特征在于，包括训练部分和应用部分：训练部分包括以下步骤：步骤1.设置初始参数：DDPG参数：训练总次数T，训练集数据长度L，Actor网络学习率lrA，Critic网络学习率lrC，折扣因子γ，软更新因子τ，回访存储容量B，小批量长度N，高斯分布行为噪声n0，噪音衰减因子κ，缩放因子λ1、λ2；能量可收集通信参数：初始训练集的可收集能量EH，初始训练集的衰落信道增益ζ，调制方式m、平均信道噪声功率N0，包传输耗时TP，包中所含符号数Ls，符号所含比特数χm，一次传输策略周期时间长度TL；计算初始训练集的平均可收集能量平均衰落信道增益可收集能量方差衰落信道增益方差1≤l≤L；令当前训练次数t＝0，当前时刻l＝0；步骤2.通过Actor的在线网络得到l时刻的决策al＝min(max(μ(sl|θμ+n0)，0)，1)，其中，μ为在线网络的策略函数，sl为l时刻的状态，θμ为Actor在线网络的神经网络节点值，min表示求最小值，max表示求最大值；步骤3.通过训练样本计算l+1时刻的状态sl+1＝(bl+1，ζl+1，EH，l+1)，其中，bl+1为l+1时刻的电池能量，ζl+1为l+1时刻的衰落信道增益，EH，l+1为l+1时刻的可收集能量，bl+1＝min(bl+EH，l‑albl，bmax)，bmax为电池容量；步骤4.计算l时刻的奖赏值：其中误码率：其中，erfc为误差函数；当调制模式m为QPSK时，r取0，(α(m，0)，β(m，0))＝(1，1)；当调制模式m为8PSK时，r取0或1，当调制模式m为16QAM时，r取0或1，步骤5.向回访存储中存储集合(sl，al，ri，sl+1)，若存储已满则按顺序覆盖，行为噪声n0＝n0×κ；步骤6.判断回访存储是否已满，若是，则跳转步骤11，若否，则跳转步骤7；步骤7.在回访存储中随机选择N个集合(si，ai，ri，si+1)，1≤i≤N，对si和si+1作状态归一处理；步骤8.计算y_i＝r_i+γQ′(s_i+1，μ′(s_i+1)|θ^Q′)，其中，μ′为目标网络的策略函数，Q′为Critic目标网络评价函数，θ^Q′为Critic目标网络的神经网络节点值，通过最小化损失来更新Critic的在线网络，其中，Q为Critic在线网络评价函数，θ^Q为Critic在线网络的神经网络节点值；步骤9.通过梯度更新Actor的在线网络，其中，θ^μ为Actor在线网络的神经网络节点值；步骤10.软更新Actor与Critic的目标网络：θQ′＝τθQ+(1‑τ)θQ′，θμ′＝τθμ+(1‑τ)θμ′，θμ′为Actor目标网络的神经网络节点值；步骤11.判断l是否等于L，若是，则跳转步骤12，若否，则跳转步骤2，且l＝l+1；步骤12.判断t是否等于T，若是，则跳转步骤13，若否，则跳转步骤2，且t＝t+1，l＝0；步骤13.训练算法结束，保存Actor在线网络；应用部分包括以下步骤：步骤1.计算归一化后的状态其中，b_tt为当前时刻tt的电池能量，ζ_tt为当前时刻tt的衰落信道增益，E_H，tt为当前时刻tt的可收集能量；步骤2.利用Actor在线网络输出最佳决策att＝μ(stt′|θμ)，则需要分配的能量为attbtt；步骤3.继续读取下一时刻的状态，若能读取到则转至步骤1，若不能读取到则结束运算。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811305167.3/，转载请声明来源钻瓜专利网。

上一篇：小区信号质量确定、小区选择或重选方法、设备及介质
下一篇：一种信道自适应跨协议通信系统及方法

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W24-00 监督，监控或测试装置
H04W24-02 .用于优化操作环境的装置
H04W24-04 .用于维护操作环境的装置
H04W24-06 .使用仿真业务量进行测试
H04W24-08 .使用真实业务量进行测试
H04W24-10 .调度测量报告

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于DDPG的能量可收集通信的比特率优化方法有效

专利文献下载