[发明专利]一种基于键值对注意力机制的智能体博弈对抗方法在审
申请号: | 202310073929.6 | 申请日: | 2023-02-07 |
公开(公告)号: | CN116029377A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 王金涛;屈嘉逸;赵龙;崔璨 | 申请(专利权)人: | 沈阳航空航天大学 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/0464;G06N3/044;G06N3/08 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110136 辽宁省沈*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 键值 注意力 机制 智能 博弈 对抗 方法 | ||
1.一种基于键值对注意力机制的智能体博弈对抗方法,其特征在于,首先定义一个了AT-Double-DQN-OAP算法;所述AT-Double-DQN-OAP算法分为三个模块,分别是环境信息提取模块,对手行为预测模块,我方行为学习模块;环境状态特征提取模块对输入的环境状态S进行特征编码,其作为后面两个模块的共享输入以进行针对性的深入提取;对手行为预测模块以环境状态特征信息s作为输入,通过OAP网络预测对手动作的策略得到对手策略特征;我方学习模块用于拟合智能体的Q值函数,以便我方智能体根据地方动作选择最优动作执行。
2.根据权利要求1所述的一种基于键值对注意力机制的智能体博弈对抗方法,其特征在于,所述智能体博弈对抗的方法,具体为:
步骤1:利用AT-Double-DQN-OAP算法对对三种不同类别时间、空间、统计数据信息进行编码得到当前的环境状态S;
利用循环神经网络采集时间信息得到时间序列,采用卷积神经网络采集空间信息得到卷积图像特征,采用全连接神经网络提取数据统计信息;将使用三种网络提取到的三类信息来生成当前的环境状态特征提取编码后的特征信息s;并且AT-Double-DQN-OAP算法层面:初始化环境状态S,初始化价值网络参数,初始化OAP特征函数,初始化目标网络参数,初始化训练池参数;
步骤2:输入我方行为学习模块的环境量直接由特征信息s的全连接隐层表示,输入对手行为预测模块时,由于引入键值对注意力,需要将环境状态量表示为S(K,V)的向量表达;
步骤3:将环境状态量S(K,V)输入对手行为预测模块,对手行为预测模块将当前向量化后的环境特征信息S(K,V)中影响较大的信息进行键值对注意机制编码,将编码后的环境特征S′(K,V)作为输入,通过键值对网络提取特征信息;
步骤4:将步骤3提取的特征信息经softmax函数输出对手策略概率分布;
步骤5:将环境特征信息s输入到Double-DQN学习网络,相较于传统的DQN网络,Double-DQN引入目标网络Q′来解决智能体学习过程中Q值过估计问题,目标网络Q′产生当前动作的最大Q值,将最大值Q输入到价值网络y*产生最优Q*;
步骤6:对AT-Double-DQN-OAP算法进行损失函数计算。
3.根据权利要求2所述的一种基于键值对注意力机制的智能体博弈对抗方法,其特征在于,步骤3键值对提取特征信息满足:
其中,q是任务查询向量,N是任务组数,kn为第n组输入信息的键向量,kj为第j组输入信息的键向量;vn为为第n组信息的值向量;
基于AT-Double-DQN-OAP算法层面:向双方智能体输入初始环境状态,对手智能体开始根据环境特征进行相应的行动。
4.根据权利要求2所述的一种基于键值对注意力机制的智能体博弈对抗方法,其特征在于,步骤4所述对手策略分布π(a|att(s),θ)满足:
其中,a′为下一步动作,a为当前动作,θ为网络参数,att(s)为键值对注意力提取后的特征信息;π为对手策略分布;
由此输出对手智能体每个动作的概率分布。
5.根据权利要求2所述的一种基于键值对注意力机制的智能体博弈对抗方法,其特征在于,步骤5具体为:
θ′=θ+a(y+Q(sinθ)Q(s,a,θ))
y*=E(s,a,r,s′)[r+yQ(s,argmaxQ′(s′,a′,θ′),θ)]
Q*=Q(s,a)+a(r+ymaxQ(s′,a)-Q(s,a))
其中,s为当前环境状态,s′为下一时刻环境状态,r为转移因子,y为折扣因子,y*为消除过估计值后的折扣因子,θ为网络参数,θ′为下一时刻网络参数,Q当前状态的动作价值,Q*为下一时刻的动作价值。
6.根据权利要求2所述的一种基于键值对注意力机制的智能体博弈对抗方法,其特征在于,步骤6具体为:
对Double-DQN网络以及AT-OAP算法分别进行损失函数计算,其中,Double-DQN损失函数计算如下:
al=argmaxQ′(s′,a′,θ′)
L(θ)=E(s,a,r,s′)[r+yQ(s′,al,θ)-Q(s,a,θ)2]
AT-OAP损失函数需要通过将博弈过程中我方智能体预测的对手行为动作的策略分布和真实实验中对手的行为策略做交叉熵运算得到,AT-OAP损失函数计算如下:
我方智能体提取环境特点,结合对手智能体的行动,做出相应的预测;将预测结果与对手智能体实际行动结果存储于训练池,接下来进行下一时刻的训练,通过不断的与环境交互,存储经验数据;计算每一步的损失函数并进行梯度下降,根据每一步的损失函数对我方智能体的价值网络参数θ进行更新迭代;不断重复以上的智能体交互、学习、迭代过程,直到AT-Double-DQN-OAP算法收敛,保存价值网络参数,智能体学习结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳航空航天大学,未经沈阳航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310073929.6/1.html,转载请声明来源钻瓜专利网。