[发明专利]多无人机协同空战决策自主学习及半实物仿真验证方法有效
申请号: | 202111639119.X | 申请日: | 2021-12-29 |
公开(公告)号: | CN114167756B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 马耀飞;赵丽平;冯旭焘;龚光红;李妮;宋晓;王江云 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G05B17/02 | 分类号: | G05B17/02 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 周长琪 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 无人机 协同 空战 决策 自主 学习 实物 仿真 验证 方法 | ||
本发明为一种多无人机协同空战决策自主学习及半实物仿真验证方法,属于智能空战决策技术领域。本发明包括:采用马尔可夫博弈过程对多无人机协同空战决策问题建模;改进QMIX框架建立多无人机协同空战决策网络模型,改进模型学习框架;采用Pixhawk飞控板、仿真软件Gazebo和地面站软件QGC建立半实物仿真验证环境。本发明显著提高多无人机空战决策学习的效率,能加快决策网络模型收敛速度,解决了多无人机协同空战策略的学习和验证问题,实现了多无人机协同空战策略的自学习、自改进和试验验证的整体方案。
技术领域
本发明属于智能空战决策技术领域,具体涉及一种用于多无人机自主学习协同空战策略及半实物仿真验证方法。
背景技术
多无人机的自主协同空战问题一直受到军事领域关注。传统的自主空战决策方法,包括博弈论方法、优化理论方法、知识决策方法等,都没能很好地解决多无人机环境下空战的协同决策问题。例如,博弈论方法和优化理论方法都对参与决策的个体数量敏感,其计算复杂度随决策数量的增加呈指数增加;知识决策方法则需要通过复杂的知识工程获取决策知识,而众所周知的是,这一过程通常需要耗费大量的人力、财力。
基于深度强化学习的自学习方法为解决多无人机协同空战决策问题提供了新思路。深度强化学习方法无需事先准备领域知识,可以通过与环境的交互从零开始自我学习,持续提高决策水平,甚至创造出全新的战术。训练好的网络模型在实际使用时具有较好的实时性。目前,面向多Agent(代理)学习的QMIX框架能用于学习多无人机协同空战策略,但仍有学习过程收敛慢(甚至不收敛)、学习鲁棒性差等问题。
此外,为了高效率地为多机协同空战学习提供大量数据,并在高可信度环境中验证学习结果,有必要建立高可信度的仿真验证平台。半实物仿真又称硬件在回路(HardwareIn The Loop,HITL)仿真,是指将研究对象的部分硬件实物加入仿真系统开展仿真试验的技术,比数字仿真具备更高的准确性和真实性,但同时也比实物验证更加便利、消耗更少,是实验室研究与实际部署应用之间必须的一个环节。
发明内容
为了更高效地获取多无人机协同空战策略以验证策略,本发明提出一种多无人机协同空战决策自主学习及半实物仿真验证方法。本发明方法提出了一种新颖的多无人机协同空战决策自主学习方法,以实现显著改进QMIX框架学习效率,改进多无人机协同空战策略的自主学习问题,达到能更快获取多无人机协同空战决策的目的;同时,本发明还提出一种与之配套的半实物仿真验证环境设计方案,共同解决了多无人机协同空战策略的学习和验证问题。
本发明的一种多无人机协同空战决策自主学习及半实物仿真验证方法,包括:
(1)建立多无人机协同空战决策系统模型;
将多无人机协同空战决策问题建模为马尔可夫博弈过程,设计马尔可夫博弈中的状态空间、动作空间和即时回报函数;
(2)采用改进的QMIX框架建立多无人机协同空战决策网络模型,改进模型学习框架,对模型进行学习;
建立的多无人机协同空战决策网络模型包括:首先,为每架无人机建立单独的动作价值网络Qi(oi,ai),其中oi、ai分别表示无人机i的观测状态和动作。其次,为多无人机建立价值混合网络,价值混合网络包含一个全局动作价值函数网络Qtotal(s,a)和一个超参数网络,s、a分别表示全局状态和多无人机联合动作,超参数网络则用于生成全局动作价值函数网络的参数。无人机个体的动作价值网络Qi(oi,ai)、全局动作价值函数网络Qtotal(s,a)以及超参数网络共同构成了学习框架的当前网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111639119.X/2.html,转载请声明来源钻瓜专利网。