[发明专利]基于快速强化学习的干扰规避方法、装置、设备及介质有效
申请号: | 202110089336.X | 申请日: | 2021-01-22 |
公开(公告)号: | CN112888071B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 熊俊;魏急波;李芳;赵海涛;周宣含;赵肖迪;周力;张晓瀛;辜方林 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;H04W72/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 侯珊 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 快速 强化 学习 干扰 规避 方法 装置 设备 介质 | ||
本发明公开了一种基于快速强化学习的干扰规避方法、装置、设备及介质;在本方案中,通过WoLF‑PHC学习算法进行通信干扰规避,采用可变的学习速率以提高学习算法的学习速率,并基于WoLF准则保证算法的收敛性,因此,本方案可在未知且动态变化的通信干扰环境中,能够迅速收敛且获得良好的抗干扰性能,提高了无线通信链路的鲁棒性和可靠性,进一步提高整个无线通信系统的可靠性和高效性。
技术领域
本发明涉及无线通信抗干扰技术领域,更具体地说,涉及一种基于快速强化学习的干扰规避方法、装置、设备及介质。
背景技术
无线通信信道具有开放性,容易遭受各种干扰,这些干扰降低了无线通信的可靠性,严重影响了无线通信质量,阻碍通信信号的正常发送和接收,严重时甚至能导致通信中断,给业务的运行造成严重的损失。针对无线通信所面临的复杂干扰环境,干扰会随着地区和时间的变化而变化,很难直接发现干扰的规律,因此传统的监督学习制定的固定规避策略无法适应动态变化的环境。近年来,许多学者将动态频谱接入(DSA,dynamic spectrumaccess)和Q学习进行结合,提出了多种有效的智能抗干扰方法。然而基于单一的信道切换进行干扰规避会带来频繁的信道切换,并不能带来系统整体性能的提升。又有学者提出基于Q学习的二维抗干扰移动通信方案为每个状态策略保留Q函数,用于选择发射功率和接入信道,但是状态空间维度过大时会造成Q学习的学习速度降低,难以适应动态变化的无线通信环境,而且针对随机策略的干扰,Q学习不一定达到收敛。
因此,如何在未知且动态变化的通信干扰环境中,能够迅速收敛且获得良好的抗干扰性能,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种基于快速强化学习的干扰规避方法、装置、设备及介质,以在未知且动态变化的通信干扰环境中,能够迅速收敛且获得良好的抗干扰性能。
为实现上述目的,本发明提供的一种基于快速强化学习的干扰规避方法,包括:
建立马尔科夫模型,所述马尔科夫模型包括状态、动作和奖励值,所述状态表示:当前时隙的通信信道及干扰信道,所述动作表示:与当前时隙相邻的下一时隙的通信信道及发射功率,所述奖励值表示:在所述状态下执行所述动作的奖励值;
在无线通信环境中,基于所述马尔科夫模型及WoLF-PHC学习算法进行策略更新,得到最终策略,所述最终策略表示在不同状态下选取不同动作的概率值,以根据所述最终策略进行通信干扰规避。
其中,所述基于所述马尔科夫模型及WoLF-PHC学习算法进行策略更新之前,还包括:
对学习参数进行初始化,所述学习参数包括:折扣因子、学习率参数、学习速率、Q表、当前状态、当前策略、最大迭代次数;所述Q表表示在每一时隙的状态下,采取动作后所得到的累积奖励值。
其中,所述在无线通信环境中,基于所述马尔科夫模型及WoLF-PHC学习算法进行策略更新,得到最终策略,包括:
根据当前策略和当前状态确定目标动作;
基于所述目标动作及下一时隙的干扰信道确定下一时隙的状态;
计算在当前状态下执行所述目标动作的奖励值,并基于学习率参数、折扣因子及所述奖励值对Q表进行更新;
基于学习速率及更新后的Q表,对当前策略进行更新,并基于更新的当前策略及当前状态出现的次数对平均策略进行更新;
更新当前的迭代次数,判断当前的迭代次数是否大于所述最大迭代次数,若是,则将更新后的当前策略作为最终策略;若否,则将下一时隙的状态作为当前状态,并利用更新后的Q表、当前策略及平均策略继续执行所述根据当前策略和当前状态确定目标动作的操作。
其中,所述学习速率确定方法包括:
判断当前策略平均奖励值是否大于平均策略平均奖励值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110089336.X/2.html,转载请声明来源钻瓜专利网。