[发明专利]一种基于强化学习的宽带频谱感知方法有效
申请号: | 202011074175.9 | 申请日: | 2020-10-09 |
公开(公告)号: | CN112202514B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 吴克宇;张周;赵润森;程光权;黄金才;胡星辰;杜航;石建迈;黄魁华;孙博良 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | H04B17/382 | 分类号: | H04B17/382 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 黄晓兰 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 宽带 频谱 感知 方法 | ||
本发明公开了无线频谱感知技术领域的一种基于强化学习的宽带频谱感知方法,包括S1:分时分频序贯宽带感知搜索建模;S2:基于马尔科夫决策过程的最优序贯感知搜索;S3:基于蒙特卡洛树搜索的快速序贯感知搜索。本发明将使用马尔科夫决策过程(MDP)将宽带搜索问题中的决策相关元素建模为“状态”、“动作”、“奖励”和“转移概率”,并基于MDP完成对最优在线搜索策略的定义。本发明将通过蒙特卡洛树搜索算法实现对在线搜索策略的快速求解,该方法通过离线仿真方法构造非对称稀疏决策树,将有限的计算资源集中搜索最有潜力的信道,从而有效地缩短决策时间,提高认知无线电节点对宽带频谱资源利用效率。
技术领域
本发明涉及无线频谱感知技术领域,具体为一种基于强化学习的宽带频谱感知方法。
背景技术
随着未来无线频谱管理和利用范围的拓宽,频谱感知任务将面临着如何快速完成宽带频谱检测的挑战。特别是在军事场景中,使用的频谱包括了从甚低频(如海上通信)到极高频(如雷达和卫星通信)的超大动态范围,而且不同的电磁信号包括了窄带、脉冲、扩频、跳频等复杂的信号样式。由于信号采样的带宽限制,认知无线电节点(Secondary User,SU)很难通过一次数据采样实现对大动态范围的无线信号的完美还原和各个信道频谱状态的检测。压缩感知(Compressive Sensing)技术理论上可以在信号稀疏的场景中降低采样速率,实现基于混叠信号的频谱感知。但是,随着无线应用的密集增加,特别是在军事激烈对抗场景中,频谱可能处于异常拥挤的状态中,压缩感知技术所依赖的信号稀疏假设的适用场景正在不断减少。因此,在实践中往往采样“分而治之”的方式,将观测频谱划分为数个范围较小的频段,逐一进行采样和感知,然而这会显著地增加获取频谱态势的时延,减少空闲频带的利用率。幸运的是对于认知无线电网络来说,并非所有的频带都同等重要,如民用场景中,认知无线电节点更倾向于获取通信质量好的信道;而在军事中,认知无线电节点则可能更希望能够获取某些关键信道的状态信息。因此,认知无线电节点可以将感知搜索的时间和资源集中于重要的信道,对于相对不重要的信道,认知无线电节点可以放弃或者减少感知投入。可见,如何设计和优化感知搜索策略,对于快速完成对宽带频谱系统的状态的获取从而满足系统的感知需求至关重要。
分时分频搜索方法可以很好地适用于宽带频谱感知任务中,通过将有限的感知资源在时间和频率两个维度同时进行分配,从而有效地提高宽带系统的频谱资源利用率。在当前的研究中,感知搜索算法通过对感知场景和优化空间进行诸多非必要限制,以使问题简化为静态或准静态的搜索规划问题,但是这大大减弱了算法的适用性和最终性能。因此,建立更具普适性的宽带搜索模型,研究具有更大设计优化自由度的宽带感知搜索算法,对于更好地提升认知无线电网络的宽带频谱感知能力具有重要意义。
为解决宽带系统中认知无线电节点采样能力受限的问题,将频谱进行细分以逐一感知搜索是最常用的解决方案之一。在搜索过程中,将认知无线电节点的感知资源(如感知时间)进行优化配置是实现宽带频谱资源的快速感知和有效利用的关键。使用传统的规划方法(如凸优化、组合优化等)可以根据子频带的特性、认知无线电节点系统需求和限制等因素对感知资源进行配置,从而对宽带感知搜索过程进行预先的规划和设计。但是,除了上述考虑的静态因素,宽带搜索过程中实际上还应考虑包括采样信号质量、无线信道质量、感知资源余量、已感知完成的信道等随感知过程变化的动态或者随机因素。因此,预先规划方法往往难以实现对感知过程中的实时动态信息的充分利用;相反地,最优的宽带感知搜索应该是基于所有相关信息的在线决策过程。强化学习方法非常适合解决这类在线决策问题,其中最广为人知的RL程序可能是DeepMind公司研发的围棋程序AlphaGo,它基于实时棋盘信息实现了在线对弈决策(并成功击败人类冠军)。因此,借助类似于AlphaGo的RL算法可以充分融合静态和动态信息进行在线感知搜索决策,从而实现对感知资源的最优配置,以加速宽带频谱搜索过程并提高对频谱资源利用率。
基于此,本发明设计了一种基于强化学习的宽带频谱感知方法,以解决上述提到的问题。
发明内容
本发明的目的在于提供一种基于强化学习的宽带频谱感知方法,以解决上述背景技术中提出的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011074175.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生产聚合氯化铝用高效烘干装置及工作方法
- 下一篇:一种全自动粘合机