[发明专利]基于置信区间上界算法与DRL算法的动态频谱接入方法有效

专利信息
申请号: 202110506184.9 申请日: 2021-05-10
公开(公告)号: CN113207129B 公开(公告)日: 2022-05-20
发明(设计)人: 申滨;颜廷秋;方广进 申请(专利权)人: 重庆邮电大学
主分类号: H04W16/10 分类号: H04W16/10;H04B17/373;H04B17/382
代理公司: 北京同恒源知识产权代理有限公司 11275 代理人: 赵荣之
地址: 400065 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 置信区间 上界 算法 drl 动态 频谱 接入 方法
【权利要求书】:

1.一种基于置信区间上界算法与DRL算法的动态频谱接入方法,其特征在于,该方法具体包括以下步骤:

S1:构建分布式动态频谱接入系统模型,具体包括:N个PU组成的主用户网络和L个SUE组成的次用户网络;假设有N个正交信道,每个PU在唯一的无线信道上传输;PU在信道上的工作状态表示为活跃和空闲,分别标记为“1”和“0”;则所有信道的状态由2N个状态的离散马尔可夫模型来描述,其状态空间表示为:S={s=(s1,s2,...,sn,...,sN)∣sn=0或1,n=1,2,...,N},其中,sn=0或1分别表示每个信道的两种状态:占用或空闲;

S2:构建SUE的累积期望奖励函数,表达式为:

其中,表示第l个SUE在t时隙之前的M个时隙的历史经验,L表示SUE的数量,0≤γ≤1为折扣因子,表示未来的奖励对当前动作的影响;rl(t)表示第l个SUE在信道上传输成功的奖励值;

S3:根据第l个SUE在t时隙之前的M个时隙的历史经验以及接入信道的状态动作,得到最优接入策略,以获得最大的累积期望奖励;其中,SUE最优接入策略公式为:

S4:采用深度强化学习中的DQN算法和置信区间上界算法结合的方法对接入策略进行求解,具体包括:SUE采取动作时,在t时隙选择动作为其中,表示在t时隙之前动作被选择的次数,σ表示不确定度量,控制探索的程度;表示第l个SUE在t时隙给定历史经验作为状态下采取动作的Q值,其公式表示为

通过不断迭代获得最优接入策略。

2.根据权利要求1所述的动态频谱接入方法,其特征在于,步骤S1中,单个信道上的状态转移概率表示为:

其中,pij表示状态i转移为状态j的概率。

3.根据权利要求1所述的动态频谱接入方法,其特征在于,步骤S1中,假设每个SUE都有传输数据的需要,每个SUE接入一个信道,且不同的SUE接入动作空间都是相同的,此时用第l个SUE的动作空间来概括表示;第l个SUE在时隙t内的接入动作表示为:

al(t)∈{1,2,...,n,...,N}

其中,al(t)表示在时隙t内,第l个SUE将要接入并且传输数据的信道;假设SUE在t时隙接入第n个信道之后,SUE发送端接收到接收端通过控制信道发送的SUE所接入的第n个信道的反馈为SUE接入第n个信道后,会发生三种情况:(1)SUE成功传输;(2)SUE之间相互碰撞干扰;(3)SUE对PU产生了干扰;对应于这三种情况,分别设置反馈为即

4.根据权利要求3所述的动态频谱接入方法,其特征在于,步骤S1中,将奖励值设置为反馈信号的值,则第l个SUE获得的累积折扣奖励表示为:

其中,0≤γ≤1为折扣因子,表示未来的奖励对当前动作的影响;rl(t)表示第l个SUE在信道上传输成功的奖励值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110506184.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top