[发明专利]一种面向博弈的雷达对抗策略生成方法有效
申请号: | 202010091616.X | 申请日: | 2020-02-13 |
公开(公告)号: | CN111275174B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 杨健;王沙飞;李岩;肖德政;田震;张丁 | 申请(专利权)人: | 中国人民解放军32802部队;北京理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
地址: | 100191 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 博弈 雷达 对抗 策略 生成 方法 | ||
1.一种面向博弈的雷达对抗策略生成方法,其特征在于,具体步骤如下:
步骤1:将雷达和干扰系统看作博弈的两个玩家,设定对抗场景:设定雷达有Nradar个工作状态,干扰方有Njam个干扰样式,设定雷达工作状态转换回报表,从根节点root出发构建雷达对抗博弈树,在树的每个终止节点根据状态转换回报表设置雷达和干扰系统的效用值u(I,ai),i=1,…,n;
设定迭代次数Niter和每次迭代中博弈树从root节点开始的遍历次数K,设定对抗策略神经网络的训练频率Ns,设定神经网络的训练次数Nnn,设定判断对抗策略是否收敛的阈值θ;
每个玩家设置遗憾值和对抗策略两种神经网络,每个神经网络均有相应的训练样本缓存区,记为和缓存区存储的内容为(I,[d(I,a1),…,d(I,an)]or[s(I,a1),…,s(I,an)],t),神经网络的输入是I,输出为神经网络计算得到的预测遗憾值向量或预测对抗策略向量训练开始前清空四个缓存区和令迭代次数t=1,跳转步骤2;
其中,训练频率Ns表示训练Ns次遗憾值神经网络后,训练1次对抗策略神经网络且满足Niter%Ns=0;上标r和s分别代表遗憾值和对抗策略,下标0和1分别代表雷达和干扰系统;缓存区内容:I表示博弈树每个节点对应的信息集,每个信息集有唯一且固定的玩家做出选择动作,每个可选动作用ai表示,i=1,2,…,n,n是可选动作数量,d(I,ai)是遗憾值,表示当前信息集I下采取动作ai的遗憾值,i=1,…,n,是神经网络预测的遗憾值,i=1,…,n,s(I,ai)是对抗策略,表示在当前信息集下采取动作ai的概率,i=1,…,n,是神经网络预测的对抗策略,i=1,…,n,t是当前博弈所处的迭代次数,在神经网络训练时用于对数据的加权计算,u(I,ai)表示信息集I下动作ai的效用值,i=1,…,n;
步骤2:选择当前玩家p=t%2,每次迭代过程从root节点开始遍历K次雷达对抗博弈树,每遍历到一个信息集节点I,若该信息集所属玩家为本次迭代的当前玩家p,输入信息集I,根据玩家p的遗憾值神经网络得到预测遗憾值向量根据来计算该信息集的对抗策略向量[s(I,a1),…,s(I,an)],再通过遍历过程中得到的效用值和对抗策略向量乘加计算遗憾值向量[d(I,a1),…,d(I,an)],将该信息集节点I、遗憾值向量[d(I,a1),…,d(I,an)]和当前迭代次数t存入当前玩家p的遗憾值缓存区
若该信息集I所属玩家为1-p,即非本次迭代的当前玩家,则输入该信息集I,求其在玩家1-p的遗憾值神经网络的输出根据来计算该信息集的对抗策略[s(I,a1),…,s(I,an)],并将该信息集I、对抗策略[s(I,a1),…,s(I,an)]和当前迭代次数t存入玩家1-p的对抗策略缓存区
从root节点开始遍历K次博弈树之后,即1次迭代过程之后,根据当前玩家p的遗憾值缓存区中的数据训练Nnn次当前玩家的遗憾值神经网络,使输出的向量与期望向量[d(I,a1),…,d(I,an)]尽可能地接近,即遗憾值神经网络损失函数Lr越来越接近0;
迭代Ns次后,即满足t%Ns=0时,跳转步骤3;
步骤3:利用两个对抗策略缓存区的数据训练更新Nnn次两个对抗策略神经网络,使输出的向量与期望向量[s(I,a1),…,s(I,an)]尽可能地接近,即对抗策略神经网络损失函数Ls越来越接近0;
将每个信息集I输入至其对应玩家的对抗策略网络,并记录该策略;
若步骤2的累计迭代次数未达到Niter,则回到步骤2再次进行迭代计算;
重复步骤2和步骤3至迭代次数达到Niter后,令第Niter次记录的对抗策略与第Niter-Ns次记录的对抗策略作差并取绝对值,找到其中最大的元素,若其小于阈值θ,则此时两个对抗策略神经网络的输出应已达到收敛,双方已达到纳什均衡状态,得到了各自的纳什均衡策略;若其大于阈值θ,则说明尚未达到收敛,即迭代次数Niter过小,需要跳回步骤1更改Niter的值重新开始。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军32802部队;北京理工大学,未经中国人民解放军32802部队;北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010091616.X/1.html,转载请声明来源钻瓜专利网。