[发明专利]一种基于强化学习的导弹制导方法和装置有效

申请号：	202110775732.8	申请日：	2021-07-09
公开（公告）号：	CN113239472B	公开（公告）日：	2021-09-21
发明（设计）人：	朱圆恒;李伟凡;熊华;赵冬斌	申请（专利权）人：	中国科学院自动化研究所;北京电子工程总体研究所
主分类号：	G06F30/15	分类号：	G06F30/15;G06F30/27;G06N3/08;G06F111/08
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	张雅娜
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习导弹制导方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的导弹制导方法，其特征在于，包括：

基于雷达信号，获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息；

基于当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并基于当前时刻以及上一时刻的观测向量，确定当前状态；其中，所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息；

将所述当前状态输入至动作网络，得到所述动作网络输出的动作，并基于所述动作，确定所述导弹的控制量；

其中，所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的；

所述将所述当前状态输入至动作网络，得到所述动作网络输出的动作，具体包括：

基于所述动作网络的特征层，对所述当前状态进行特征提取，得到当前状态特征；

基于所述动作网络的决策层，结合所述当前状态特征进行动作决策，得到决策动作符合的高斯分布；

对所述高斯分布进行采样，得到所述动作；

所述动作网络是基于如下步骤训练得到的：

基于预测网络，构建所述预测网络的损失函数；所述预测网络用于基于所述动作网络的特征层的输出，确定对应时刻样本目标的预测加速度；所述预测网络的损失函数用于最小化每一时刻样本目标的预测加速度和实际加速度之间的差异；

基于评价网络，构建自模仿损失函数；所述评价网络用于基于动作网络的特征层的输出，确定对应时刻样本状态的状态值，并基于所述对应时刻样本动作的累计回报以及所述状态值，确定优势动作；所述自模仿损失函数用于令动作网络对确定得到的优势动作进行自模仿学习；

基于所述预测网络的损失函数和所述自模仿损失函数，对所述动作网络进行强化学习。

2.根据权利要求1所述的基于强化学习的导弹制导方法，其特征在于，所述基于所述对应时刻样本动作的累计回报以及所述状态值，确定优势动作，具体包括：

根据下式确定所述对应时刻样本动作的累计回报：

其中，为所述对应时刻，为终止时刻，和为对应时刻的样本状态，和为对应时刻的样本动作，为所述动作网络确定的策略，是折扣因子，为时刻的奖励；为时刻样本动作的累计回报；

根据下式计算所述对应时刻样本动作的优势值：

其中，为时刻样本状态的状态值，为时刻样本动作的优势值；

选取所述优势值大于0的样本动作，作为所述优势动作。

3.根据权利要求2所述的基于强化学习的导弹制导方法，其特征在于，所述时刻的奖励是基于下式确定的：

当时，

其中，和为导弹和样本目标的速度矢量；为命中目标的最大距离；

当时，

其中，是距离奖励的系数、是角度奖励的系数，和为时刻和下一时刻导弹和样本目标之间的相对距离，为导弹和样本目标之间速度方向的夹角。

4.根据权利要求2所述的基于强化学习的导弹制导方法，其特征在于，所述动作网络、所述预测网络和所述评价网络构成强化学习模型；

所述强化学习模型的损失函数为：

其中，为动作网络对应的损失函数，为预测网络的损失函数，为自模仿损失函数；

为当前所述动作网络确定的策略，为采样时动作网络确定的策略，为时刻的样本状态，为时刻的样本动作，为当前策略在状态下执行动作的概率，为采样策略在状态下执行动作的概率，为采样策略在状态下采用动作的优势值，为裁剪函数，将数值裁剪到至之间，为截断系数；

和为时刻样本目标的预测加速度和实际加速度；

为时刻样本动作的优势值，为时刻的高斯分布均值。

5.根据权利要求1至4任一项所述的基于强化学习的导弹制导方法，其特征在于，所述基于当前时刻以及上一时刻的观测向量，确定当前状态，具体包括：

对当前时刻以及上一时刻的观测向量添加噪声后，分别与对应掩码相乘，得到当前时刻以及上一时刻的筛选观测向量；

将当前时刻以及上一时刻的筛选观测向量融合，得到所述当前状态。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;北京电子工程总体研究所，未经中国科学院自动化研究所;北京电子工程总体研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110775732.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载