[发明专利]一种基于强化学习的导弹制导方法和装置有效
申请号: | 202110775732.8 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113239472B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 朱圆恒;李伟凡;熊华;赵冬斌 | 申请(专利权)人: | 中国科学院自动化研究所;北京电子工程总体研究所 |
主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/27;G06N3/08;G06F111/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张雅娜 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 导弹 制导 方法 装置 | ||
本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。
技术领域
本发明涉及导弹制导技术领域,尤其涉及一种基于强化学习的导弹制导方法和装置。
背景技术
近年来,导弹制导问题受到了广泛的关注。由于近现代的飞行器能力的提升,飞行器的飞行轨迹多变,突破能力增强,对导弹制导控制方法提出了更高的要求。此外,由于导弹具有动力学特性复杂,飞行环境不稳定,控制精度高的特点,需要控制系统具有强鲁棒性并适应变化的目标与环境。传统的控制方法只能适应某一类别的任务,然而,在现代的飞行器突防过程中,导弹和目标飞行器的相对关系有可能快速变化,使得传统的控制方法很难胜任。
在导弹制导算法中,比例导引方法的应用最为广泛,原因在于比例导引方法具有公式简单,参数化调节简单的特点。然而,比例导引方法没有考虑目标机动变化、距离、能量约束等影响因素。因此,比例导引方法采用的轨迹既不是最优轨迹,也不能满足能量等约束的限制。
发明内容
本发明提供一种基于强化学习的导弹制导方法和装置,用以解决现有技术中难以实现带角度约束的导弹围捕的缺陷。
本发明提供一种基于强化学习的导弹制导方法,包括:
基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;
基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;其中,所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息;
将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;
其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。
根据本发明提供一种的基于强化学习的导弹制导方法,所述将所述当前状态输入至动作网络,得到所述动作网络输出的动作,具体包括:
基于所述动作网络的特征层,对所述当前状态进行特征提取,得到当前状态特征;
基于所述动作网络的决策层,结合所述当前状态特征进行动作决策,得到决策动作符合的高斯分布;
对所述高斯分布进行采样,得到所述动作。
根据本发明提供的一种基于强化学习的导弹制导方法,所述动作网络是基于如下步骤训练得到的:
基于预测网络,构建所述预测网络的损失函数;所述预测网络用于基于所述动作网络的特征层的输出,确定对应时刻样本目标的预测加速度;所述预测网络的损失函数用于最小化每一时刻样本目标的预测加速度和实际加速度之间的差异;
基于评价网络,构建自模仿损失函数;所述评价网络用于基于动作网络的特征层的输出,确定对应时刻样本状态的状态值,并基于所述对应时刻样本动作的累计回报以及所述状态值,确定优势动作;所述自模仿损失函数用于令动作网络对确定得到的优势动作进行自模仿学习;
基于所述预测网络的损失函数和所述自模仿损失函数,对所述动作网络进行强化学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;北京电子工程总体研究所,未经中国科学院自动化研究所;北京电子工程总体研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110775732.8/2.html,转载请声明来源钻瓜专利网。