[发明专利]一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法有效
申请号: | 201810661506.5 | 申请日: | 2018-06-25 |
公开(公告)号: | CN108770072B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 吴远;张成;倪克杰;陈相旭;钱丽萍;黄亮 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | H04W72/12 | 分类号: | H04W72/12;H04W24/02;H04W52/34 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 正交 接入 最优 解码 排序 上行 传输 时间 优化 方法 | ||
1.一种非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述方法包括以下步骤:
(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合表示,给定一组智能终端就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用表示;
在保证发送完成所有智能终端的数据量以及给定一种解码排序πm,其中m=1,2,…,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题:
0≤tm≤Tmax (1-3)
Variables:tm
下面将问题中的各个变量做一个说明,如下:
πm(i):给定解码排序πm的条件下,智能终端i的解码顺序;
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
tm:智能终端发送数据到接入热点的上行传输时间,单位是秒;
是关于tm的函数,表示在第m种解码排序πm的情况下,智能终端i在给定上行传输时间tm内完成发送数据量所需要的最小发射功率,单位是瓦特;
W:智能终端到接入热点的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giA:智能终端i到接入热点的信道功率增益;
智能终端i需要发送到接入热点的数据量,单位是兆比特;
智能终端i最大上传能量消耗,单位是焦耳;
Tmax:智能终端发送数据到接入热点的最大上行传输时间,单位是秒;
(P1-m)问题是在给定智能终端上传量的情况下找到最小的整体无线资源消耗量,所述整体无线资源消耗量包括上行传输时间和所有智能终端总能量消耗,观察(P1-m)问题知道它的目标函数只有一个变量tm
(2)通过强化学习算法来寻找一个最优的上行传输时间记为t*,m,强化学习系统由智能体和环境所组成;所有智能终端的上行传输时间tm和每个智能终端的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间tm将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (2-1)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(3)所有智能终端的上行传输时间tm和每个智能终端的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1;
强化学习的迭代过程为:
步骤3.1:初始化强化学习中的评估网络、目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤3.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤3.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤3.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤3.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤3.6:最小化误差(y-Qθ(xT,a))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤3.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤3.2;
步骤3.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,m,和最优的整体无线资源消耗
(4)得到给定一种解码排序πm的条件下的最优上行传输时间后,接着提出算法OptOrder-Algorithm来找到最优的解码排序,找到全局最优上行传输时间,使得有全局最小整体无线资源消耗;
算法OptOrder-Algorithm的求解过程是:设定智能终端集合为Iall={g1A,g2A,…,gIA},|Iall|表示集合Iall的基,初始化当前可选集合Icur={g1,g2,…,gI},|Icur|表示集合Icur的基,当前最优解码排序当前最优解CBV是一个足够大的数,当前测试集合首先,第一次迭代过程,从Icur中依次选择一个元素插进Icur,test中,找出当前最优的Icur,test,使得有当前最小整体无线资源消耗的Icur,test,更新Icur,把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur,test给CBS;接着第二次迭代过程中,从当前Icur中依次选择一个元素插进Icur,test中,此时Icur,test只有一个元素,插在该元素左边或右边,找出当前最优的Icur,test,使得有当前最小整体无线资源消耗的Icur,test,更新Icur,即把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,把当前最优的Icur,test给CBS;每次从当前Icur中依次选择一个元素插进Icur,test时,不能改变已确定的Icur,test集合中的元素位置排列,如此迭代直到最后一次迭代,找到全局最优的解码排序CBS,全局最小整体无线资源消耗θ*,全局最优上行传输时间t*;
最后,算法OptOrder-Algorithm输出的θ*代表(P1-m)问题中所求的全局最小整体无线资源消耗,(P1-m)问题中待求的全局最优上行传输时间t*。
2.如权利要求1所述的一种非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述步骤(4)中,算法OptOrder-Algorithm的求解步骤如下:
步骤4.1:设定Iall=Icur={g1A,g2A,…,gIA},
步骤4.2:开始while循环
步骤4.3:设定CBV是一个足够大的数;
步骤4.4:开始for循环m=1:1:|Icur|;
步骤4.5:开始for循环h=0:1:|CBS|;
步骤4.6:设定
步骤4.7:如果h=0,设定Icur,test={Icur(m),CBS}
步骤4.8:否则如果h≠0,设定Icur,test={CBS(1:h),Icur(m),CBS(h+1:|CBS|)};
步骤4.9:得到Icur,test后,联合(2)和(3)深度强化学习算法计算出θ*,cur,test和t*,m;
步骤4.10:如果θ*,cur,testCBV,设定CBV=θ*,cur,test,t*=t*,m,同时设定CBS=Icur,test;
步骤4.11:当h=|CBS|时,结束步骤4.5的for循环;
步骤4.12:当m=|Icur|时,结束步骤4.4的for循环;
步骤4.13:设定Icur=Iall/CBS;
步骤4.14:当时,结束步骤4.2的while循环;
步骤4.15:输出θ*=CBV以及t*。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810661506.5/1.html,转载请声明来源钻瓜专利网。