[发明专利]基于强化学习的智能频谱协同感知方法有效
申请号: | 201810647284.1 | 申请日: | 2018-06-22 |
公开(公告)号: | CN108833040B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 吴凡;宁文丽;黄晓燕;马立香;冷甦鹏 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04B17/382 | 分类号: | H04B17/382;H04W24/04 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 智能 频谱 协同 感知 方法 | ||
1.基于强化学习的智能频谱协同感知方法,其特征在于,对每个次用户,当到达一个呼叫请求时,首先根据基于Q-Learning技术学习各次用户最近的信道状态得到的信道优先级列表,以最小化扫描开销为目的做出感知信道的决定;其次,节点在检测信道时请求其他次用户进行协作频谱感知,具体通过bandit赌博机机制选取检测能力强的次用户进行协作;最后信道被检测完成,则广播被检测信道的状态和检测权重通知其他次用户;
当一个呼叫请求到达次用户SUk时,具体包括以下步骤:
S1、采用ε-greedy决策策略确定待测信道;
S2、采用UCB策略确定协作次用户SUf;
S3、根据步骤S1确定的待测信道与步骤S2确定的协作次用户SUf,更新信道优先级列表;
S4、更新待测信道的信道状态和协作次用户SUf检测能力估计值;
S5、循环步骤S1-S4,当次用户SUk成功接入待测信道,停止迭代,并且次用户SUk将当前迭代的待测信道的信道状态、该待测信道对应的权重值以及协作次用户SUf检测能力估计值进行广播;或者当达到最大检测次数,停止迭代,并宣告阻塞;
其中,k、f均为次用户的序号,k=1,2,…,N,f=1,2,…,N且f≠k,N表示次用户的总数。
2.根据权利要求1所述的基于强化学习的智能频谱协同感知方法,其特征在于,步骤S1具体为:
S11.每个次用户分别维护一张Q表,Q表中对每条信道都用一个Q值代表其空闲可能性大小,初始时将Q表中Q值初始化为0;
S12.当一个呼叫到达节点SUk时,Q-Learning按照ε-greedy决策策略来采取行动,得到待检测信道ci。
3.根据权利要求2所述的基于强化学习的智能频谱协同感知方法,其特征在于,步骤S2具体为:选择待测信道ci后,运行UCB算法,根据待测信道检测能力的估计值和估计过程中的不确定性,确定协作次用户SUf。
4.根据权利要求3所述的基于强化学习的智能频谱协同感知方法,其特征在于,步骤S3具体为:
S31、协作次用户SUf对待测信道进行本地能量检测,若检测结果为待测信道空闲且SUk成功接入,则更新该信道状态为1,否则更新该信道状态为0,然后执行步骤S32;
S32、次用户SUk学习其他次用户对待测信道的占用情况,从而计算待测信道奖励点;
S33、根据奖励点更新待测信道Q值;
S34、按照Q值递减顺序重新排列信道的动态优先级列表。
5.根据权利要求4所述的基于强化学习的智能频谱协同感知方法,其特征在于,步骤S33所述待测信道Q值的更新具体为:通过Q-Learning机制根据邻居对待测信道占用的最近历史和最近的行动回馈更新检测信道Q值;更新表达式为:
Qk(st,ci)=(1-α)Qk(st,ci)+α{rk(st,ci)-γ(exp-τ*m)}
其中,α表示学习率,0≤α≤1,γ为折扣因子,表示对未来奖励的衰减值,0≤γ≤1,τ是一个固定常数,0≤τ≤1,m表示当前扫描信道的尝试次数,st代表实际网络环境,rk(st,ci)表示奖励点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810647284.1/1.html,转载请声明来源钻瓜专利网。