[发明专利]一种基于深度强化学习的多agent避碰方法有效
申请号: | 201911375159.0 | 申请日: | 2019-12-27 |
公开(公告)号: | CN110968102B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 孙立博;秦文虎;翟金凤 | 申请(专利权)人: | 东南大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 214135 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 agent 方法 | ||
本发明公开一种基于深度强化学习的多agent避碰方法,首先,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;然后,确定深度强化学习架构;最后采用基于近端策略优化的深度强化学习方法同时对多个场景进行训练,从而获取最优控制策略,使得agent能够成功躲避静态和动态障碍物,顺利到达目标点。本发明提不仅具有较好的逼真性和较强的通用性,还具有良好的扩展性,更大大提高了训练效率,缩短了训练时间;解决了传统的强化学习方法应用于避碰中状态和动作空间必须离散的问题,提高了传统深度学习方法的训练效率。
技术领域
本发明属于虚拟现实及人工智能领域,具体涉及一种基于深度强化学习的多agent避碰方法。
背景技术
路径规划是人类基本的行为能力之一,是保证人类在现实生活中不与其他障碍物和个体发生碰撞,更好地向目标前进的关键。在虚拟人群仿真研究中,也应该体现这一基本行为特性,使得agent能够按照自然合理的路径运动,顺利到达目标位置。而真实有效地模拟路径规划行为,尤其是多agent的避碰行为,不仅能够提高agent的智能性,还能够为更高层的虚拟人群行为仿真提供基础。
基于人工势场法、速度障碍物方法、栅格的规则等传统的多agent避碰算法虽然对环境未知或者部分未知的情况具有较好的适应性,但是不能保证各agent顺利到达目标点,而且,若想获得很好的避碰效果,需要进行大量的参数调节;而基于强化学习的多agent避碰算法大多要求状态和动作空间必须离散,在规划路径的真实性方面还有待进一步提高,因此,本发明从提高规划路径的真实性和训练效率的角度出发,研究基于深度强化学习的多agent避碰算法。通过本发明的研究,不仅能够为多agent找出从起始点到目标点的无碰撞的路径,而且无需对环境进行建模,还使得学习到的避碰策略能够广泛应用到更多场景成为可能。综上所述,研究基于深度强化学习的多agent避碰算法具有重要的理论意义和工程应用价值。
发明内容
发明目的:本发明提供一种基于深度强化学习的多agent避碰方法,能够克服具有连续状态和动作空间的多agent强化学习所存在的维数灾难以及多agent深度强化学习训练时间长的问题,使得学习到的避碰策略能够广泛应用到更多场景。
技术方案:本发明所述的一种基于深度强化学习的多agent避碰方法,包括以下步骤:
(1)在每一场景中,对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达;
(2)确定深度强化学习架构,该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,agent的动作作为输出;
(3)采用近端策略优化方法同时对多个场景进行训练,调整网络参数,获取共享策略,训练完成后,即可得到一条从起始点到目标点的无碰撞的路径。
进一步地,所述步骤(1)包括以下步骤:
(11)设定agent可感知的最大视距为a米,最大视角为b度,其中,0a≤5,b≤220;具体描述为:以agent当前位置为参考,向前延伸c米,最大视角为以聚焦方向为对称轴,和两侧的夹角分别为b/2度;
(12)在感知范围内向不同方向发射射线进行采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,将静态障碍物的状态表示为绝对位置pstatic,将动态障碍物的状态表示为绝对位置pdynamic和运动速度vdynamic;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911375159.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种织物用丝环绕式制取设备
- 下一篇:一种荷花的种植方法