[发明专利]一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法有效

专利信息
申请号: 201810661506.5 申请日: 2018-06-25
公开(公告)号: CN108770072B 公开(公告)日: 2021-10-29
发明(设计)人: 吴远;张成;倪克杰;陈相旭;钱丽萍;黄亮 申请(专利权)人: 浙江工业大学
主分类号: H04W72/12 分类号: H04W72/12;H04W24/02;H04W52/34
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,包括以下步骤:(1)在给定一种解码排序πm的条件下,优化问题描述为一个非凸性优化问题;(P1‑m)问题是在给定智能终端上传量的情况下找到最优的整体无线资源消耗,观察(P1‑m)问题知道它的目标函数只有一个变量;(2)和(3)通过深度强化学习算法来找到一个最优的上行传输时间,使得有最优的整体无线资源消耗;(4)提出算法OptOrder‑Algorithm找到最优的解码排序,再联合深度强化学习算法,输出全局最小整体无线资源消耗和全局最优上行传输时间。本发明提高了系统传输效率,获得更优质的无线网络体验质量,使得有最优的整体无线资源消耗。
搜索关键词: 一种 基于 深度 强化 学习 正交 接入 最优 解码 排序 上行 传输 时间 优化 方法
【主权项】:
1.一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合表示,也就是说,给定一组智能终端就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用表示;在保证发送完成所有智能终端的数据量以及给定一种解码排序πm,其中m=1,2,…,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1‑m)问题:0≤tm≤Tmax  (1‑3)Variables:tm下面将问题中的各个变量做一个说明,如下:πm(i):给定解码排序πm的条件下,智能终端i的解码顺序;α:上行传输时间的权重因子;β:上行传输总能量消耗的权重因子;tm:智能终端发送数据到接入热点的上行传输时间,单位是秒;是关于tm的函数,表示在第m种解码排序πm的情况下,智能终端i在给定上行传输时间tm内完成发送数据量所需要的最小发射功率,单位是瓦特;W:智能终端到接入热点的信道带宽,单位是赫兹;n0:信道背景噪声的频谱功率密度;giA:智能终端i到接入热点的信道功率增益;智能终端i需要发送到接入热点的数据量,单位是兆比特;智能终端i最大上传能量消耗,单位是焦耳;Tmax:智能终端发送数据到接入热点的最大上行传输时间,单位是秒;(P1‑m)问题是在给定智能终端上传量的情况下找到最小的整体无线资源消耗量,所述整体无线资源消耗量包括上行传输时间和所有智能终端总能量消耗,观察(P1‑m)问题知道它的目标函数只有一个变量t*,m;(2)通过强化学习算法来寻找一个最优的上行传输时间记为t*,m,该强化学习系统由智能体和环境所组成;所有智能终端的上行传输时间tm和每个智能终端的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间tm将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′)  (2‑1)其中,各参数定义如下:θ:评估网络中的参数;θ′:目标网络中的参数;xT:在时刻T,系统所处状态;Qθ(xT,a):在状态下采取动作a所得到的Q值;r(xT,a):在状态下采取动作a所得到的奖励;γ:奖励衰减比重;(3)所有智能终端的上行传输时间tm和每个智能终端的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1;强化学习的迭代过程为:步骤3.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;步骤3.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;步骤3.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;步骤3.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;步骤3.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);步骤3.6:最小化误差(y‑Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;步骤3.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤3.2;步骤3.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,m,和最优的整体无线资源消耗(4)得到给定一种解码排序πm的条件下的最优上行传输时间后,接着提出算法OptOrder‑Algorithm来找到最优的解码排序,也即找到全局最优上行传输时间,使得有全局最小整体无线资源消耗;算法OptOrder‑Algorithm的求解过程是:设定智能终端集合为Iall={g1A,g2A,…,gIA},|Iall|表示集合Iall的基,初始化当前可选集合Icur={g1A,g2A,…,gIA},|Icur|表示集合Icur的基,当前最优解码排序当前最优解CBV是一个足够大的数,当前测试集合首先,第一次迭代过程,从Icur中依次选择一个元素插进Icur,test中,通过调用算法P2‑Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur,test,更新Icur,即把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur,test给CBS;接着第二次迭代过程中,从当前Icur中依次选择一个元素插进Icur,test中,此时Icur,test只有一个元素,即插在该元素左边或右边,通过调用算法P2‑Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur,test,更新Icur,即把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur,test给CBS;每次从当前Icur中依次选择一个元素插进Icur,test时,不能改变已确定的Icur,test集合中的元素位置排列,如此迭代直到最后一次迭代,找到全局最优的解码排序CBS,全局最小整体无线资源消耗θ*,全局最优上行传输时间t*;最后,算法OptOrder‑Algorithm输出的θ*代表(P1‑m)问题中所求的全局最小整体无线资源消耗,(P1‑m)问题中待求的全局最优上行传输时间t*。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810661506.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top