[发明专利]一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法有效

申请号：	201810661506.5	申请日：	2018-06-25
公开（公告）号：	CN108770072B	公开（公告）日：	2021-10-29
发明（设计）人：	吴远;张成;倪克杰;陈相旭;钱丽萍;黄亮	申请（专利权）人：	浙江工业大学
主分类号：	H04W72/12	分类号：	H04W72/12;H04W24/02;H04W52/34
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习正交接入最优解码排序上行传输时间优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种非正交接入最优解码排序上行传输时间优化方法，其特征在于，所述方法包括以下步骤：

(1)在接入热点的覆盖范围下总共有I个智能终端，智能终端用集合表示，给定一组智能终端就有I！种解码排序，智能终端使用非正交接入技术同时向接入热点发送数据，其中智能终端i需要发送的数据量用表示；

在保证发送完成所有智能终端的数据量以及给定一种解码排序π^m，其中m＝1,2,…,I！的条件下，最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题：

0≤t^m≤T^max (1-3)

Variables:t^m

下面将问题中的各个变量做一个说明，如下：

π^m(i):给定解码排序π^m的条件下，智能终端i的解码顺序；

α:上行传输时间的权重因子；

β:上行传输总能量消耗的权重因子；

t^m:智能终端发送数据到接入热点的上行传输时间，单位是秒；

是关于t^m的函数，表示在第m种解码排序π^m的情况下，智能终端i在给定上行传输时间t^m内完成发送数据量所需要的最小发射功率，单位是瓦特；

W:智能终端到接入热点的信道带宽，单位是赫兹；

n₀:信道背景噪声的频谱功率密度；

g_iA:智能终端i到接入热点的信道功率增益；

智能终端i需要发送到接入热点的数据量，单位是兆比特；

智能终端i最大上传能量消耗，单位是焦耳；

T^max:智能终端发送数据到接入热点的最大上行传输时间，单位是秒；

(P1-m)问题是在给定智能终端上传量的情况下找到最小的整体无线资源消耗量，所述整体无线资源消耗量包括上行传输时间和所有智能终端总能量消耗，观察(P1-m)问题知道它的目标函数只有一个变量t^m

(2)通过强化学习算法来寻找一个最优的上行传输时间记为t^*,m，强化学习系统由智能体和环境所组成；所有智能终端的上行传输时间t^m和每个智能终端的最小发射功率都被编进了系统当前状态x_T，智能体在当前状态下采取动作a进入下一个状态x_T+1，同时得到环境返回的奖励r(x_T,a)；在智能体和环境不断交互更新下，上行传输时间t^m将不断被优化直到找到整体无线资源消耗的最小值，智能体的更新方式为：

Q^θ(x_T,a)＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′) (2-1)

其中，各参数定义如下：

θ：评估网络中的参数；

θ′：目标网络中的参数；

x_T：在时刻T，系统所处状态；

Q^θ(x_T,a)：在状态x_t下采取动作a所得到的Q值；

r(x_T,a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

(3)所有智能终端的上行传输时间t^m和每个智能终端的最小发射功率作为深度强化学习的系统状态x_T，动作a则是对系统状态x_T的更改，如果改后的系统的整体无线资源消耗比之前的要小，则使当前奖励r(x_T,a)设为正值，反之设为负值，同时系统进入下一状态x_T+1；

强化学习的迭代过程为：

步骤3.1：初始化强化学习中的评估网络、目标网络和记忆库，当前系统状态为x_T，T初始化为1，迭代次数k初始化为1；

步骤3.2：当k小于或等于给定迭代次数K时，随机选择一个概率p；

步骤3.3：如果p小于或等于ε；则选择评估网络所输出的动作a(T)，否则随机选择一个动作；

步骤3.4：采取动作a(T)后，得到奖励r(T)和下一步状态x(T+1)，并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中；

步骤3.5：结合目标网络的输出，计算评估网络的目标y＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′)；

步骤3.6：最小化误差(y-Q^θ(x_T,a))²，同时更新评估网络的参数θ，使得其下次能预测得更准；

步骤3.7：每隔S步，将评估网络的参数赋值给目标网络，同时令k＝k+1，回到步骤3.2；

步骤3.8：当k大于给定迭代次数K时，学习过程结束，得到最优的上行传输时间t^*,m，和最优的整体无线资源消耗

(4)得到给定一种解码排序π^m的条件下的最优上行传输时间后，接着提出算法OptOrder-Algorithm来找到最优的解码排序，找到全局最优上行传输时间，使得有全局最小整体无线资源消耗；

算法OptOrder-Algorithm的求解过程是：设定智能终端集合为I^all＝{g_1A,g_2A,…,g_IA}，|I^all|表示集合I^all的基，初始化当前可选集合I^cur＝{g₁,g₂,…,g_I}，|I^cur|表示集合I^cur的基，当前最优解码排序当前最优解CBV是一个足够大的数，当前测试集合首先，第一次迭代过程，从I^cur中依次选择一个元素插进I^cur,test中，找出当前最优的I^cur,test，使得有当前最小整体无线资源消耗的I^cur,test，更新I^cur，把I^all去掉I^cur,test之后的集合给I^cur，同时更新CBS，即把当前最优的I^cur,test给CBS；接着第二次迭代过程中，从当前I^cur中依次选择一个元素插进I^cur,test中，此时I^cur,test只有一个元素，插在该元素左边或右边，找出当前最优的I^cur,test，使得有当前最小整体无线资源消耗的I^cur,test，更新I^cur，即把I^all去掉I^cur,test之后的集合给I^cur，同时更新CBS，把当前最优的I^cur,test给CBS；每次从当前I^cur中依次选择一个元素插进I^cur,test时，不能改变已确定的I^cur,test集合中的元素位置排列，如此迭代直到最后一次迭代，找到全局最优的解码排序CBS，全局最小整体无线资源消耗θ^*，全局最优上行传输时间t^*；