[发明专利]基于置信区间上界算法与DRL算法的动态频谱接入方法有效
申请号: | 202110506184.9 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113207129B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 申滨;颜廷秋;方广进 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04W16/10 | 分类号: | H04W16/10;H04B17/373;H04B17/382 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 置信区间 上界 算法 drl 动态 频谱 接入 方法 | ||
1.一种基于置信区间上界算法与DRL算法的动态频谱接入方法,其特征在于,该方法具体包括以下步骤:
S1:构建分布式动态频谱接入系统模型,具体包括:N个PU组成的主用户网络和L个SUE组成的次用户网络;假设有N个正交信道,每个PU在唯一的无线信道上传输;PU在信道上的工作状态表示为活跃和空闲,分别标记为“1”和“0”;则所有信道的状态由2N个状态的离散马尔可夫模型来描述,其状态空间表示为:S={s=(s1,s2,...,sn,...,sN)∣sn=0或1,n=1,2,...,N},其中,sn=0或1分别表示每个信道的两种状态:占用或空闲;
S2:构建SUE的累积期望奖励函数,表达式为:
其中,表示第l个SUE在t时隙之前的M个时隙的历史经验,L表示SUE的数量,0≤γ≤1为折扣因子,表示未来的奖励对当前动作的影响;rl(t)表示第l个SUE在信道上传输成功的奖励值;
S3:根据第l个SUE在t时隙之前的M个时隙的历史经验以及接入信道的状态动作,得到最优接入策略,以获得最大的累积期望奖励;其中,SUE最优接入策略公式为:
S4:采用深度强化学习中的DQN算法和置信区间上界算法结合的方法对接入策略进行求解,具体包括:SUE采取动作时,在t时隙选择动作为其中,表示在t时隙之前动作被选择的次数,σ表示不确定度量,控制探索的程度;表示第l个SUE在t时隙给定历史经验作为状态下采取动作的Q值,其公式表示为
通过不断迭代获得最优接入策略。
2.根据权利要求1所述的动态频谱接入方法,其特征在于,步骤S1中,单个信道上的状态转移概率表示为:
其中,pij表示状态i转移为状态j的概率。
3.根据权利要求1所述的动态频谱接入方法,其特征在于,步骤S1中,假设每个SUE都有传输数据的需要,每个SUE接入一个信道,且不同的SUE接入动作空间都是相同的,此时用第l个SUE的动作空间来概括表示;第l个SUE在时隙t内的接入动作表示为:
al(t)∈{1,2,...,n,...,N}
其中,al(t)表示在时隙t内,第l个SUE将要接入并且传输数据的信道;假设SUE在t时隙接入第n个信道之后,SUE发送端接收到接收端通过控制信道发送的SUE所接入的第n个信道的反馈为SUE接入第n个信道后,会发生三种情况:(1)SUE成功传输;(2)SUE之间相互碰撞干扰;(3)SUE对PU产生了干扰;对应于这三种情况,分别设置反馈为即
4.根据权利要求3所述的动态频谱接入方法,其特征在于,步骤S1中,将奖励值设置为反馈信号的值,则第l个SUE获得的累积折扣奖励表示为:
其中,0≤γ≤1为折扣因子,表示未来的奖励对当前动作的影响;rl(t)表示第l个SUE在信道上传输成功的奖励值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110506184.9/1.html,转载请声明来源钻瓜专利网。