[发明专利]一种基于DDPG的能量可收集通信的比特率优化方法有效

申请号：	201811305167.3	申请日：	2018-11-02
公开（公告）号：	CN109548044B	公开（公告）日：	2020-11-17
发明（设计）人：	陈彦;邱成润;胡洋	申请（专利权）人：	电子科技大学
主分类号：	H04W24/02	分类号：	H04W24/02;H04W24/06;G06N3/08;G06N3/04
代理公司：	电子科技大学专利中心 51203	代理人：	李明光
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 ddpg 能量收集通信比特率优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于DDPG的能量可收集通信的比特率优化方法，其特征在于，包括训练部分和应用部分：

训练部分包括以下步骤：

步骤1.设置初始参数：

DDPG参数：训练总次数T，训练集数据长度L，Actor网络学习率lrA，Critic网络学习率lrC，折扣因子γ，软更新因子τ，回访存储容量B，小批量长度N，高斯分布行为噪声n₀，噪音衰减因子κ，缩放因子λ₁、λ₂；

能量可收集通信参数：初始训练集的可收集能量E_H，初始训练集的衰落信道增益ζ，调制方式m、平均信道噪声功率N₀，包传输耗时T_P，包中所含符号数L_s，符号所含比特数χ_m，一次传输策略周期时间长度T_L；

计算初始训练集的平均可收集能量平均衰落信道增益可收集能量方差衰落信道增益方差

令当前训练次数t＝0，当前时刻l＝0；

步骤2.通过Actor的在线网络得到l时刻的决策a_l＝min(max(μ(s_l|θ_μ+n₀)，0)，1)，其中，μ(s_l|θ_μ+n₀)为在线网络的策略函数，s_l为l时刻的状态，θ_μ为Actor在线网络的神经网络节点值，min表示求最小值，max表示求最大值；

步骤3.通过训练样本计算l+1时刻的状态s_l+1＝(b_l+1，ζ_l+1，E_H，l+1)，其中，b_l+1为l+1时刻的电池能量，ζ_l+1为l+1时刻的衰落信道增益，E_H，l+1为l+1时刻的可收集能量，b_l+1＝min(b_l+E_H，l-a_lb_l，b_max)，b_max为电池容量；

步骤4.计算l时刻的奖常值：

其中误码率：

其中，erfc为误差函数；

当调制模式m为QPSK时，r取0，(α(m，0)，β(m，0))＝(1，1)；

当调制模式m为8PSK时，r取0或1，

当调制模式m为16QAM时，r取0或1，

步骤5.向回访存储中存储集合(s_l，a_l，r_l，s_l+1)，若存储已满则按顺序覆盖，行为噪声n₀＝n₀×κ；

步骤6.判断回访存储是否已满，若是，则跳转步骤11，若否，则跳转步骤7；

步骤7.在回访存储中随机选择N个集合(s_i，a_i，r_i，s_i+1)，1≤i≤N，对s_i和s_i+1作状态归一处理；

步骤8.计算y_i＝r_i+γQ′(s_i+1，μ′(s_i+1)|θ^Q′)，其中，μ′(s_i+1)|θ^Q′为目标网络的策略函数，Q′为Critic目标网络评价函数，θ^Q′为Critic目标网络的神经网络节点值，通过最小化损失来更新Critic的在线网络，其中，Q为Critic在线网络评价函数，θ^Q为Critic在线网络的神经网络节点值；

步骤9.通过梯度更新Actor的在线网络，其中，θ^μ为Actor在线网络的神经网络节点值；

步骤10.软更新Actor与Critic的目标网络：θ^Q′＝τθ^Q+(1-τ)θ^Q′，θ^μ′＝τθ^μ+(1-τ)θ^μ′，θ^μ′为Actor目标网络的神经网络节点值；

步骤11.判断l是否等于L，若是，则跳转步骤12，若否，则跳转步骤2，且l＝l+1；

步骤12.判断t是否等于T，若是，则跳转步骤13，若否，则跳转步骤2，且t＝t+1，l＝0；

步骤13.训练算法结束，保存Actor在线网络；

应用部分包括以下步骤：

步骤1.计算归一化后的状态其中，b_tt为当前时刻tt的电池能量，ζ_tt为当前时刻tt的衰落信道增益，E_H，tt为当前时刻tt的可收集能量；

步骤2.利用Actor在线网络输出最佳决策a_tt＝μ(s_tt′|θ^μ)，则需要分配的能量为a_ttb_tt；

步骤3.继续读取下一时刻的状态，若能读取到则转至步骤1，若不能读取到则结束运算。

2.根据权利要求1所述的基于DDPG的能量可收集通信的比特率优化方法，其特征在于，训练部分步骤7中状态归一化的具体步骤如下：

步骤7-1.计算归一化后的状态：

步骤7-2.输出归一化后的状态：s_i′＝(b_i′，ζ_i′，E_H，i′)。