[发明专利]基于增强学习算法的主用户仿真攻击检测方法有效
申请号: | 201710596776.8 | 申请日: | 2017-07-20 |
公开(公告)号: | CN107332855B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 陈惠芳;谢磊;马向荣 | 申请(专利权)人: | 浙江大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04W12/00;H04W16/10 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 叶志坚 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于增强学习算法的主用户仿真攻击检测方法。现有方法中当CRN的信道环境发生变化时,检测性能会明显下降。本发明方法以Q‑Learning算法在线学习不同信道环境下的判决检测门限值,即采用信道多径时延差作为状态参数,以判决门限作为动作策略,并将长时检测收益作为系统的回报函数,根据管理机构在每个周期的反馈奖罚值,通过Q‑Learning算法实时调整判决门限。本发明以Q‑Learning算法动态调整判决门限,无需PU特征参数作为先验信息,能有效提升信道环境变化情况下的检测性能,且无需改变已有SU的硬件配置。 | ||
搜索关键词: | 基于 增强 学习 算法 用户 仿真 攻击 检测 方法 | ||
【主权项】:
基于增强学习算法的主用户仿真攻击检测方法,其特征在于该方法以增强学习算法在线学习不同信道环境下的判决检测门限值,即采用信道多径时延差作为状态参数,以判决门限作为动作策略,并将长时检测收益作为系统的回报函数,根据管理机构在每个周期的反馈奖罚值,通过增强学习算法实时调整判决门限;该方法的具体步骤是:步骤1.认知无线电网络的PU以概率p使用授权频谱资源;当PU不工作时,MU以概率q模仿PU信号特征并对SU发起攻击,其中q≤1‑p;当感知为无空闲频谱时,SU为防止频谱被MU恶意占用进行主用户仿真攻击检测,首先构建二元假设检验为:所述的PU为主用户、SU为从用户、MU为恶意用户,H0、H1分别表示SU判断接收信号来自于PU和MU;然后通过信道估计得到第k个时隙的信道多径时延差根据以下准则做出判决:其中τPU为接收信号来自于PU时的信道多径时延差,λk为判决门限值;当判断接收信号来自于PU时,SU选择放弃接入频谱并继续进行频谱感知;当判决接收信号来自于MU时,SU选择接入频谱并发起攻击警报;SU在每个时隙结束时收到认知无线电管理结构对频谱决策行为反馈的奖罚值,其中正确使用空闲频谱的收益为G,对主用户网络造成的干扰代价为C;步骤2.建立回报函数,确定主用户仿真攻击检测中判决门限策略的优化目标;以SU获得的收益值作为检测的回报函数,计算公式为:uk(λk)=(1‑p‑q)G+qPD,k(λk)G‑pPFP,k(λk)C;其中PD,k(λk)表示第k个时隙进行主用户仿真攻击检测的检测概率,PFP,k(λk)表示第k个时隙进行主用户仿真攻击检测的虚警概率;SU在信道环境变化时通过调整判决门限,使回报函数uk(λk)最大化;步骤3.SU通过增强学习算法进行在线学习,动态调整不同信道环境下的检测判决门限值;状态集S用信道多径时延差的估计值表示,量化为sk∈{l·Ts|0≤l≤L},l为整数;其中Ts为SU的采样时间间隔,L为l的取值上限,由认知无线电网络中信道多径时延差最大值τmax决定,即L=τmax/Ts;动作集A用判决门限值表示,量化为λk∈{l·Ts/2|0≤l≤2L};建立行动值函数Q(sk,λk),通过奖罚反馈值rk进行迭代计算,行动空间为:Q(0,0)Q(0,Ts/2)LQ(0,LTs)Q(Ts,0)Q(Ts,Ts/2)LQ(Ts,LTs)MMOMQ(LTs,0)Q(LTs,Ts/2)LQ(LTs,LTs).]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710596776.8/,转载请声明来源钻瓜专利网。