[发明专利]基于HAQL-PSO的跳频系统智能抗干扰决策方法有效
申请号: | 202011203291.6 | 申请日: | 2020-11-02 |
公开(公告)号: | CN112543038B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 朱家晟;赵知劲;郑仕链;王李军 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | H04B1/715 | 分类号: | H04B1/715 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 haql pso 系统 智能 抗干扰 决策 方法 | ||
本发明公开了一种基于HAQL‑PSO的跳频系统智能抗干扰决策方法。本发明将全局和个体最优解的引导机制引入Q学习过程,设计启发式函数用于动作选择策略;将Sigmoid函数用于启发式Q学习中;针对跳频通信中可能出现的干扰及可调节的参数,设计了状态‑动作空间及奖励函数。然后根据频谱感知结果预测未来短时间内的频谱状态。在初始化Q值、启发式函数、其他参数及初始状态后,根据动作选择策略选择最佳动作并执行,得到下一状态。对于当前的状态和动作计算奖赏函数并更新启发式函数和Q值。当达到总迭代次数时,结束学习,获得Q表用于指导参数调整,否则,更新状态和温度参数并进入下一次迭代。本发明解决了Q学习中探索和利用的平衡问题。
技术领域
本发明属于跳频通信中智能抗干扰决策领域,特别涉及一种基于HAQL-PSO的跳频系统智能抗干扰决策方法。一种利用结合了粒子群算法的启发式Q学习对跳频系统进行参数调整的智能抗干扰决策方法。
背景技术
跳频通信具有较强的抗传统干扰能力,同时还具备易组网和难以截获的特点。但是,在如今日益复杂的电磁环境和逐渐智能化的干扰策略下,传统的跳频通信技术已不能满足通信需求。对此,近年来,智能抗干扰逐渐受到重视,其通过智能地调整用户通信过程中的参数,能有效地对抗复杂干扰,提升通信质量。智能抗干扰决策是其中一项关键技术。
强化学习通过Agent与环境不断进行交互和学习能够得到最佳的决策。Q学习作为一种免模型的强化学习方法,已被广泛的应用在资源分配和参数调整的决策问题中。另外,由于Q学习不需要干扰环境的先验知识,故适合在复杂电磁环境下使用。
目前的智能抗干扰决策方法考虑的干扰环境较为简单,需要决策的变量数量较少,不适用于复杂电磁环境。
发明内容
本发明针对现有智能抗干扰决策问题的局限性,综合考虑调整跳频系统的功率、信源速率、跳频图案、跳速、信道划分间隔等参数,以达到在复杂电磁环境中对抗干扰,提高通信质量的目的。因此,提出并利用一种基于HAQL-PSO的跳频系统智能抗干扰决策方法,以得到更高的能量效率,提高通信质量。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1、结合粒子群算法设计新的启发式函数Hgbest和Hpbest;
步骤2、将新的启发式函数引入动作选择策略中,并结合Sigmoid函数和轮盘赌算法形成新的动作选择策略π(st);
步骤3、设计状态-动作空间和奖赏函数,将状态st设为可选信源速率的集合,通过迭代来遍历状态并为用户调整参数;动作at的设置考虑功率和变跳速变间隔跳频图案的联合分配;奖赏函数rt的设置关注最大化未来K个时隙内的平均能量效率;
步骤4、根据感知到的频谱状态,估计干扰的主要参数,预测未来K个时隙内的频谱状态;
步骤5、初始化Q值、启发式函数Hgbest和Hpbest、总迭代次数I、初始温度参数T0、信道增益及其他参数,随机初始化状态s0;
步骤6、对于当前状态st,根据新的动作选择策略及轮盘赌算法选择最佳动作at并执行,得到下一状态st+1,再计算奖赏值rt;
步骤7、根据各动作获得的累计奖赏值分别选择全局最优解和个体最优解并更新启发式函数值;
步骤8、更新Q值;
步骤9、更新状态和温度参数。若当前迭代次数t未到达总迭代次数I则返回至步骤6。
本发明的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011203291.6/2.html,转载请声明来源钻瓜专利网。