[发明专利]一种基于深度强化学习的URLLC和eMBB的资源复用方法有效
申请号: | 201811383001.3 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109561504B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 赵中原;李阳;王君;高慧慧 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 梁少微;王丽琴 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 urllc embb 资源 方法 | ||
1.一种基于深度强化学习的超可靠低时延URLLC和增强移动宽带eMBB的资源复用方法,其特征在于,该方法包括:
采集M个微时隙mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;M为自然数;
建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用所述训练数据对模型参数进行训练;
对训练好的模型进行性能评估直至满足性能需求;
收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入所述训练好的模型,获得资源复用决策结果;
根据所述资源复用决策结果,对当前mini-slot的eMBB和URLLC数据包进行资源分配。
2.如权利要求1所述的方法,其特征在于,所述采集M个mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据的方法包括:
对于M中的第k个mini-slot,获取不同子载波的下行信道增益gk=[g1,g2,…,gi],其中i为mini-slot中子载波的数量;并获取eMBB数据包比特数RkeM,URLLC数据包比特数RkUR,eMBB数据包队列长度QkeM,URLLC数据包队列长度QkUR,k∈M;
将所获取的信息封装为状态向量sk=[RkeM,RkUR,gk,QkeM,QkUR]作为训练数据。
3.如权利要求2所述的方法,其特征在于,所述建立基于深度强化学习的URLLC与eMBB资源复用模型包括:
设定动作向量a=[PeM,PUR,neM,nur],其中PeM表示当前mini-slot传输时间内分配给eMBB数据包的发射功率,PUR表示当前mini-slot传输时间内分配给URLLC数据包的发射功率,neM表示当前mini-slot传输时间内分配给eMBB数据包的子载波数,nur表示当前mini-slot传输时间内分配给URLLC数据包的子载波数,并初始化eMBB数据包的队列长度QeM,以及URLLC数据包的队列长度QUR均为零;
构建eval和next两个相同的神经网络,其中eval神经网络用于获得当前状态的动作估值函数Q以及选择动作向量a;next神经网络通过选择下一个状态最大的动作估值函数argmaxaQ’计算目标动作估值函数Qtarget,用以完成对eval神经网络参数的更新;
设定eval神经网络的参数C=[n,nh,nin,nout,θ,activate];n表示神经网络的隐含层数的个数,nh=[nh1,nh2,...,nhn]表示每个隐含层所包含的神经元的个数,nin表示输入层神经元的个数且等于状态向量s的长度,nout表示输出层神经元个数且等于动作向量a所有可能的取值,θ=[weight,bias],weight表示权重并随机初始化为0~w,bias表示偏置并初始化为b,activate表示激活函数并采用线性整流函数;
初始化next神经网络参数C’=C。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811383001.3/1.html,转载请声明来源钻瓜专利网。