[发明专利]一种基于多智能体强化学习的机器人追捕方法有效
申请号: | 202110348762.0 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113095500B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 张雪波;姜帆;赵铭慧;戚琪 | 申请(专利权)人: | 南开大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/02;G06F30/20 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 300110*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 强化 学习 机器人 追捕 方法 | ||
本发明公开了一种基于多智能体强化学习的机器人追捕方法,该方法包括构建两追一逃环境、构建马尔科夫模型、获取两追一逃网络模型以及扩展多追多逃策略等步骤。该方法利用已知的追捕机器人的运动学模型向前模拟追捕机器人在下一时刻的状态,并通过基于值函数的近似策略迭代算法,训练得到两追一逃环境下的追捕策略,进而通过贪心决策算法扩展至多追多逃的情况,得到多追多逃情况下的最优追捕策略,该方法得到的追捕策略追捕成功率更高,从而使追捕过程更加高效、可靠。
技术领域
本发明涉及多机器人追逃分析技术领域,更具体的说是涉及一种基于多智能体强化学习的机器人追捕方法。
背景技术
目前,随着人工智能技术的迅猛发展,机器人在越来越多的领域中得到应用,在救援、勘探、侦查和飞行器编队作战等实际应用过程中,机器人之间需要互相协同完成任务,进而延伸出了多机器人追逃问题,但由于追捕机器人和入侵者的数目不断增多,难以通过控制的方法寻找到协作的最优策略。为此,在很多学者力图通过强化学习方法解决多智能体追捕问题,强化学习方法常用的建模方式是网格状环境模型。
但是,由于追捕机器人和逃跑者的状态空间是有限的,它们的动作空间则是在栅格中上下左右移动,这种环境建模方式无法推广至多机器人追捕问题中,实际的移动机器人需要以速度或加速度作为控制输入,且控制周期短。这类端到端连续输入下的控制策略,并不适合采用DQN(Deep Q-Network,深度Q网络)等离散动作学习的方法,而基于策略梯度的方法由于状态空间和动作空间过于庞大,采集到的数据有效性较差,训练大多缺乏稳定性,对数据量的要求很高;
同时,多机器人追捕问题的目标是尽快追捕所有的逃跑者,追捕机器人之间需要完成良好的配合,在某些情况下,机器人会出现消极决策,也可以称为懒惰的状况,缺乏与其他智能体的合作,陷入局部最优的状态无法跳出;
从对手的角度来看,不管是强化学习还是其他的学习方法,训练追捕策略时,必须相应的给定逃跑者的策略,才能完整的构建仿真环境,而逃跑者决策的优劣很大程度上影响了追捕机器人决策的能力上限。
最后,为了采集充足的训练数据,对局循环适合于在仿真环境下快速生成,但是应用于实际的机器人实验环境下,由于各种误差和通信同步问题,仿真环境下训练好的神经网络参数在实验中效果不佳,需要通过实验采集真实数据,对各参数进行重新训练和修正,耗时过多,仿真与实验环境参数缺乏重用性。
因此,如何提供一种准确可靠、高效稳定的机器人追捕方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于多智能体强化学习的机器人追捕方法,该方法有效解决了现有的多机器人追捕方法准确性低、稳定性难以保证、实现过程复杂等问题。
为了实现上述目的,本发明采用如下技术方案:
一种基于多智能体强化学习的机器人追捕方法,该方法包括:
构建两追一逃环境:分别构建两个追捕机器人的运动学模型和一个逃跑者的运动学模型,并建立随机动作与人工势场相结合的逃跑者策略,得到两追一逃环境;
构建马尔科夫模型:根据所述两追一逃环境,构建马尔科夫模型,并确定所述马尔科夫模型中的状态空间、动作空间、回报函数和状态转移概率;
获取两追一逃网络模型:构建用于表征状态值函数的神经网络模型,采用近似soft策略迭代算法对所述神经网络模型进行训练和测试,得到两追一逃网络模型;
扩展多追多逃策略:建立多个追捕机器人和多个逃跑者,基于所述两追一逃网络模型,通过贪心决策算法确定各个追捕机器人的动作,得到最优追捕策略。
进一步地,所述追捕机器人的运动学模型为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110348762.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种半导体结构及其制造方法
- 下一篇:一种抗老化电缆桥架制造表面处理工艺