[发明专利]一种基于强化学习的多智能体自主导航方法有效

专利信息
申请号: 202010950487.5 申请日: 2020-09-11
公开(公告)号: CN112132263B 公开(公告)日: 2022-09-16
发明(设计)人: 刘婵娟;马原野;张强;魏小鹏 申请(专利权)人: 大连理工大学
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08;G01C21/20
代理公司: 大连理工大学专利中心 21200 代理人: 李晓亮;潘迅
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 智能 自主 导航 方法
【说明书】:

发明提供了一种基于强化学习的多智能体自主导航方法,属于多智能体强化学习领域。本发明通过长短时记忆网络将环境历史状态编码为系统的隐状态特征向量,并将编码后的系统隐状态作为智能体的策略网络以及动作评价网络的输入,从而使得智能体的策略网络和动作评价网络都能基于环境全局的信息工作,使得智能体的策略更加鲁棒。

技术领域

本发明属于多智能体强化学习领域,具体涉及一种对MADDPG算法改进的多智能体自主导航方法。

背景技术

智能体自主导航旨在让智能体像人一样具备安全高效的从起点移动到目标点、且不和其他障碍物发生碰撞的能力。该技术是移动机器人实现更多高级功能的基础,是人工智能领域研究的重点之一。传统的智能体导航算法主要基于采样路径搜索方法,通过在已知的地图空间进行路径规划完成导航。随着机器人应用场景的不断扩展,传统的智能体导航技术不能适应动态变化的场景,也无法在多智能体场景发挥作用,因此传统方法已经不能满足实际需要。

近年来人工智能技术快速发展,适用于序列决策问题的强化学习技术也在游戏AI和机器人控制领域取得瞩目成就。例如香港城市大学Tingxiang Fan等人,将多智能体系统中的智能体导航问题建模为深度强化学习模型,结合经典控制原理提出了去中心化的完全分布式多智能体避障导航算法,已经能够在人群密集的环境中实现良好的避障导航。香港科技大学的Lei Tai等人使用DDPG算法训练的智能体也已经可以在未知的地图中实现高效自主导航,并已经在实际场景实验成功;Google Brain的Aleksandra Faus等人提出了融合强化学习和概率路线图法的层次结构导航算法PRM-RL,该算法首先基于概率路线图方法进行静态地图路径规划,在规划出来的路径上采样若干个任务点,任务点和任务点之间由强化学习训练的避障导航算法驱动智能体运动,从而能够在地图范围比较大的场景比较出色的完成自主导航;类似的Google AI和新墨西哥大学合作的RL-RRT算法也采用相同的思路,快速扩展随机树方法负责规划路径,强化学习算法负责避障。

对于多智能体系统,可以将其他智能体都当做动态环境进行考虑,即对于当前智能体而言其他智能体都是会移动的障碍物,但是随着深度强化学习算法训练过程的进行,不同智能体的策略也在不断发生变化,会造成训练环境的不稳定,算法收敛速度慢甚至不收敛。近年来不少研究者尝试将博弈论领域的知识引入深度强化学习框架,比如OpenAI和加州大学伯克利分校合作提出的分散执行、集中训练的方法,在对智能体的状态进行评估的时候将矩阵博弈的状态空间用所有的智能体的观测以及状态代替;从而将不完全信息的博弈转换为了完全信息的博弈,降低了训练过程的不稳定性,在多智能体的合作或者竞争场景中都取得了不错的表现;同时英国牛津大学的团队也基于类似的思路提出了COMA算法,在星际争霸II的小规模战场环境也取得了很好的效果;Shihui Lid等人受对抗学习中在学习样本中增加噪声从而提高神经网络鲁棒性的启发,联合卡耐基梅隆大学、加州大学伯克利分校和清华大学合作,基于博弈论中的极大极小值原理将MADDPG进行改进提出了鲁棒性更强的M3DDPG,在多智能体对抗场景取得喜人成绩;Iqbal等人基于MADDPG算法引入注意力机制提出了MAAC算法,该算法首先通过注意力机制计算状态空间特征的相关性权重,之后使用该权重对状态特征进行加权,从而对状态特征进行了筛选,相较于MADDPG算法达到了更好的效果;清华大学的Jun Feng联合阿里巴巴的Heng Li等人,提出MA-RDPG算法,该算法通过一个LSTM编码的消息模块在多个智能体之间传递,从而改善了多智能体之间的协作,该算法成功应用于淘宝的商品排序推荐场景。

传统基于路径规划的导航技术不能适应环境的变化,不能很好地针对动态变化的环境做出合理的响应。越来越复杂的机器人应用场景,甚至多智能体系统等都对动态场景中智能体实现自主导航提出更多需求。近年来人工神经网络技术快速发展,以深度强化学习为代表的一系列方法在机器人方面取得显著进步,同时也为智能体自主导航问题提供了新思路。

发明内容

为了解决现有技术中的问题,本发明围绕智能体自主导航问题,利用深度强化学习技术提出一种改进的多智能体自主导航方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010950487.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top