[发明专利]一种基于多用户随机森林强化学习的抗干扰方法有效
申请号: | 202110076580.2 | 申请日: | 2021-01-20 |
公开(公告)号: | CN112867087B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 徐煜华;黄璐莹;汪西明;李文;徐逸凡;姚凯凌 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
主分类号: | H04W40/08 | 分类号: | H04W40/08;H04W40/16;H04W40/22 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 毛雨田 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多用户 随机 森林 强化 学习 抗干扰 方法 | ||
本发明公开了一种基于多用户随机森林强化学习的抗干扰方法。首先,将多用户多中继场景中的抗干扰通信问题建模为马尔科夫博弈,其次,基于多用户随机森林强化学习算法,同时考虑外界干扰和用户之间的互干扰,每个时隙后用户之间进行信息交互,每个用户对的接收端根据当前信道质量作出下一步决策,通过控制信道将决策反馈给中继和主用户。循环执行“决策‑反馈‑调整”,当达到最大循环次数时,算法结束。本发明模型完备,物理意义清晰,设计算法合理有效,能够很好地刻画基于多用户随机森林强化学习算法的多用户多中继通信抗干扰场景。
技术领域
本发明属于无线通信技术领域,具体涉及一种基于多用户随机森林强化学习的抗干扰方法。
背景技术
在远距离通信中,中继的存在为通信双方提供了可靠的接入点,并通过信息的二次转发来保证通信质量。在认知中继网络中,中继选择是获得分集增益的有效途径之一。(参考文献K.Yang,et al.,“Efficient Full-Duplex Relaying With Joint Antenna-Relay Selection and Self-Interference Suppression.”IEEE Transactions onWireless Communications,vol.14,no.7,pp.3991-4005,July 2015.)。在多中继通信网络中,选择一个最优的中继节点可以使用户的接收信噪比最大,有效的提高系统吞吐量。然而由于无线通信环境的开放性,无线通信系统极易遭受恶意干扰的攻击,影响多中继场景中的中继选择。特别是当可选中继节点都在干扰范围内时,传统的中继选择方案无法躲避干扰的攻击,从而影响中继节点到目的节点的通信质量。
发明内容
本发明的目的是针对现有技术的问题,提出了一种基于多用户随机森林强化学习的抗干扰方法。在多用户多中继通信场景下,不仅仅存在外界的恶意干扰,同时用户间也存在互扰,将此抗干扰问题建模为马尔科夫博弈,采用多用户随机森林强化学习方法解决中继和信道选择联合优化抗干扰问题。各个用户通过信息交互做出最优联合决策以最大化系统吞吐量。
本发明采用的技术方案为:一种基于多用户随机森林强化学习的抗干扰方法,包括N个主用户、R个中继节点,一个主用户和一个中继节点组成一个通信用户对;一个干扰机对用户通信实施干扰;每个通信时隙后,用户之间进行信息交互,基于多用户随机森林强化学习算法,每个用户对的接收端做出抗干扰决策,通过不断的“决策-反馈-调整”,实现抗干扰通信;具体包括以下步骤:
步骤1,初始化:设置初始化状态其中fjx(0)表示在初始时刻干扰机所在的信道,表示初始时刻用户的联合信道动作;初始化各个用户的Q值表Qn,n∈N,设置学习参数、仿真时隙数为k,k>0;
步骤2,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;
步骤3,根据当前回报值,以及观察到的下一时刻状态,更新用户Q值表;
步骤4,用户交互各自的评估函数,根据当前所有用户的评估函数之和选择联合动作,并按采用ε-greedy的策略更新方式;并返回步骤2;
循环步骤2~4,直至达到最大迭代次数,算法结束。
优选的是,本发明将当前时隙的频谱信息定义为状态,通过与环境进行不断交互,决策出联合最优决策,具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110076580.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种风干牛肉制备方法
- 下一篇:一种电瓶车脚撑具有强度检测功能的加工设备