[发明专利]基于案例推理与合作Q学习的认知无线电资源分配方法有效
申请号: | 201811511217.3 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109787696B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 徐琳;赵知劲;楼巧巧;占锦敏;王琳 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | H04B17/382 | 分类号: | H04B17/382;H04W72/04 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 案例 推理 合作 学习 认知 无线电 资源 分配 方法 | ||
1.基于案例推理与合作Q学习的认知无线电资源分配方法,其特征在于该方法的具体内容为:
步骤1、随机初始化若干案例,给定学习速率α、折扣因子γ、初始温度参数T0和总迭代次数I,利用传统Q学习算法进行学习,构建成案例库;
步骤2、当前新案例和案例库中历史案例进行匹配,检索出最相似案例的Q值,对该Q值归一化后作为迭代的初始Q值;
步骤3、认知用户感知当前状态st,根据动作策略选择动作at,执行后得到奖赏值rt和下一状态st+1;
步骤4、比较当前时刻所有认知用户的奖赏值总和和前一次迭代时刻的总奖赏值的大小,若则各Agent进行独立学习;若则Agent间进行合作学习;
步骤5、根据不同的学习方式进行Q值更新,并更新温度参数
步骤6、重复步骤3~5,直到达到总迭代次数;
步骤1具体包括如下内容:
案例库构建:随机初始化若干案例Ck,进行传统的Q学习,得到最终状态-动作函数Q值和认知系统的能量效率;将每个案例的环境因子保存为特征向量Vk,可表示为:
其中,n表示案例的特征个数;将最终Q值保存为解决方案Yk,将认知系统的能量效率保存为案例效用值Ek,从而构建成案例库;
步骤2具体如下:
假设新案例的特征向量为采用欧式距离作为衡量案例间的相似度函数,新案例与历史案例Ck的相似函数值为:
其中,ξl为第l个特征的权值,∑ξl=1;从而可得匹配案例
其中,L为案例库中历史案例总个数。
2.根据权利要求1所述的基于案例推理与合作Q学习的认知无线电资源分配方法,其特征在于步骤3具体如下:
4-1.动作选择策略:利用Boltzmann机制计算动作的选择概率然后采用轮盘赌算法进行动作的选择;其中,T为温度参数,当T较大时指数较小,则得到的各动作概率大致相同;随着T值的减少,则概率P的取值对Q值的依赖增大,即Q值大的动作概率相对越大;
4-2.奖赏函数:资源分配算法旨在保证主用户正常通信的前提下,追求认知系统能量效率的最大化;因此,系统中若有用户的通信产生冲突,奖赏值为“-3”;若认知用户的信干噪比SINRi小于阈值,则奖赏值为“0”,其中,n0为高斯白噪声功率;pi为认知用户选择的功率;hji(m)为在信道m上,认知用户j到认知用户i的信道增益;为主用户功率;gki(m)为在信道m上,主用户k到认知用户i的信道增益;若认知用户能正常通信,则奖赏值为“能量效率Φi”,W为信道带宽。
3.根据权利要求1所述的基于案例推理与合作Q学习的认知无线电资源分配方法,其特征在于步骤4和步骤5具体如下:
合作Q学习算法考虑多Agent系统的整体收益,若则Agent间进行合作学习,即将自身Q值与其他具有更大奖赏值的Agent Q值的加权和作为当前学习的Q更新值,其计算式如下所示,
其中,ωij为折扣权值,表明其他Agent的经验对当前Agent学习的影响程度,其计算式如下所示,
其中,δ为较接近1的常数,rj为Agentj当前时刻的奖赏值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811511217.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:路由器天线管理系统
- 下一篇:一种基于无线指纹数据库的频谱感知方法