[发明专利]一种基于多智能体强化学习的无人机集群协同学习方法在审
申请号: | 202010944781.5 | 申请日: | 2020-09-10 |
公开(公告)号: | CN112131660A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 俞扬;詹德川;周志华;袁雷;张云天;付聪;庞竟成;罗凡明;贾俊华 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/27;G06F30/28;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 强化 学习 无人机 集群 协同 学习方法 | ||
本发明公开一种基于多智能体强化学习的无人机集群协同学习方法,构造基于空气动力学的环境模拟器;每个无人机获取并维护本机的局部观测值;作为student,每个无人机获取并维护来自队友的建议观测值;作为teacher,为其他无人机给出指导值;基于本机局部观测值与从队友获取的建议观测值执行动作策略,获取奖励并转移到下一状态;基于MADDPG思想进行训练,直到值网络与策略网络收敛;执行阶段以分布式的方式进行,即每个无人机基于局部观测值和队友提供的建议观测值,通过动作策略执行。本发明可以在成本较低的前提下实现无人机集群之间观测值的互补,实现无人机单独自主决策,解决“主从”结构带来的通信问题。
技术领域
本发明涉及一种基于多智能体强化学习的无人机集群协同学习方法,属于无人机集群协作技术领域。
背景技术
随着科技进步及无人机技术水平提升,无人机集群在日常生活中越发重要,广泛应用于日常运输、灾难救援、军事博弈等领域。现有的无人机集群合作中,主要以“主从”的方式控制无人机集群,即是“主”无人机主要负责对各无人机获取的数据进行处理并将指令分发给参与的“从”无人机。该类方法对通信信道要求苛刻,如果通信信道受到干扰或恶意攻击,则“主从”结构的无人机集群获取的信息都将被干扰并可能导致灾难性的后果,“主从”结构的无人机集群往往缺乏灵活性,并非真正意义上的“自治系统”。
近年来深度强化学习技术取得了极大的进步,深度强化学习不同于传统的监督学习或者非监督学习,以试错的方式与环境进行交互,获取最大的累积奖赏,是天然的决策利器。在Atari游戏、围棋、星际争霸等游戏领域,智能交通、电商推荐系统等领域都取得了较广泛的应用。
在现有的多智能体强化学习算法中,MADDPG是一个Actor-Critic框架的算法,遵循集中训练、分布执行的思想,在训练Critic网络的时候考虑全局信息,实际执行时Actor的输入中包含单个智能体的局部特征,突破了传统强化学习算法只能用单一网络结构的限制。将多智能体算法MADDPG应用于无人机集群控制能有效解决上述无人机集群“主从”结构的不足,各无人机能根据自己传感器所获取的局部信息进行决策,实现一定的自治能力。然而在基于MADDPG的无人机集群中,单个无人机信息传感器(摄像头等)视野有限,无法有效获取全局信息,无法实现真正意义上的自治决策。
发明内容
发明目的:为了解决基于MADDPG的无人机集群中个体视野受限的缺点,本发明提供一种基于多智能体强化学习的无人机集群协同学习方法。在本发明的无人机集群中,无人机能从其他无人机的动作进行学习,可以较好地解决无人机集群中单个无人机视野有限的问题。
技术方案:一种基于多智能体强化学习的无人机集群协同学习方法,在无人机集群控制中,每个无人机需要学习自己的动作策略,同时扮演Student和Teacher的角色,分别从队友处获取指导意见并给队友提供建议指导,基于多智能体强化学习算法训练无人机的策略,通过使用深度神经网络对动作值函数与动作策略函数进行表示,以下分别表述为值网络和策略网络,逐步训练优化神经网络,实现无人机集群高效协作学习,得到无人机动作策略。无人机集群的策略神经网络训练过程包含以下步骤:
步骤1,基于Unity3D构建空气动力学的环境模拟器,环境模拟器中构建无人机合作集群;
步骤2,初始队友信息比较匮乏,初始化无人机观测值oα;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010944781.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种银屑病熏蒸治疗装置
- 下一篇:一种多层次搅拌的污染土壤清洗设备