[发明专利]基于免疫深度强化学习的移动机器人自主导航方法有效

申请号：	202110545286.1	申请日：	2021-05-19
公开（公告）号：	CN113406957B	公开（公告）日：	2022-07-08
发明（设计）人：	陈光柱;严成良;李杨	申请（专利权）人：	成都理工大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	暂无信息	代理人：	暂无信息
地址：	610059 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于免疫深度强化学习移动机器人自主导航方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了基于免疫深度强化学习的移动机器人自主导航方法，该方法基于深度确定性策略梯度(DDPG)算法，并结合移动机器人的运动学分析、信息熵理论以及免疫优化理论来实现移动机器人的自主导航。首先通过Gazebo仿真平台搭建仿真实验环境，然后将移动机器人通过传感器获得的机器人周围环境的特征信息，将其输入到KAI‑DDPG网络，并进行一定次数的训练，就可获得移动机器人的运动策略模型和不同场景下每步的执行动作。然后在真实场景下，将训练好的网络模型导入真实移动机器人中，即可实现移动机器人的自主导航。本发明具有一定的环境适应能力，移动机器人在不用预知环境地图信息下自主实现多种场景下的导航。

技术领域

本发明属于移动机器人领域，涉及动态、复杂且无环境地图信息的室内场景下的移动机器人自主导航算法。具体是结合移动机器人运动学分析、信息熵理论以及免疫优化算法对DDPG算法改进的一种自主导航方法(KAI-DDPG，DDPG algorithm based on immuneoptimization and kinematics analysis)。

背景技术

随着科技的进步和社会的发展，移动机器人作为提高人们生活质量的载体，在医疗、军事、物流、航天等行业的应用日益广泛。导航技术作为移动机器人的基础能力，有着巨大的发展前景。大量成熟的经典导航技术能够很好地运用于静态的、简单的、已知的环境中。但如今，移动机器人被应用于各个领域中，经常会面临复杂的、动态的、陌生的环境，此时，传统的基于地图的导航方法就很难满足相关要求。为此，无地图自主导航方法应运而生。

在众多无地图自主导航方法中，深度强化学习因为同时具备深度学习的强大表征能力以及强化学习的强大决策能力，使得智能体拥有了更强的适应性，进而能够更好地处理复杂系统的感知和决策问题。近几年，大量国内外学者将深度强化学习算法应用于移动机器人无地图自主导航中，取得了一定的效果。

在众多深度强化学习算法中，DDPG算法能够稳定且高效地处理连续的控制任务，许多研究人员也将其用来解决移动机器人的导航问题，并通过大量的文章和实验证明可知，DDPG算法具有较好的导航效果。本发明在DDPG算法的基础上，提出了一种结合移动机器人的运动学分析、信息熵理论以及免疫优化的移动机器人自主导航方法(KAI-DDPG)，取得了更好的导航效果。

KAI-DDPG算法避免了传统的基于地图的导航方法的建图过程，节约了大量的时间成本以及人力成本，并且相较于基于地图的导航方法来说，KAI-DDPG算法还拥有较强的适应现实中多变的动态环境和大型环境的能力。

发明内容

本发明提出了一种基于DDPG算法，并结合移动机器人的运动学分析、信息熵理论以及免疫优化的移动机器人实时、在线自主导航方法(KAI-DDPG)。相较于DDPG算法，KAI-DDPG算法具备更好的环境适应能力以及更高的学习训练效率，并且能够使得移动机器人获得更优秀的导航路径，具有一定的实际应用价值。

第一方面，本发明将DDPG算法应用于移动机器人自主导航时，由于其奖赏函数的设计没有结合移动机器人的运动学分析，进而会导致移动机器人的运动轨迹漂移、甚至陷入局部最优等问题，首先对移动机器人进行了运动学建模分析，并在此基础上结合了相关运动参数，提出了朝向角奖赏因子、线速度奖赏因子和安全性能奖赏因子，进一步将以上三个奖赏因子引入到了DDPG的奖赏函数中，此外，还引入多目标性能指标，将路径规划问题转化为一个多目标优化问题，把朝向角、线速度和安全度作为评价指标，以达到优化移动机器人运动轨迹的目的。

第二方面，本发明在将朝向角奖赏因子、线速度奖赏因子和安全性能奖赏因子引入到DDPG的奖赏函数中的情况下，考虑到各奖赏因子对导航策略的影响程度不同，为了使这三个奖赏因子的值更合理，引入信息熵的相关理论，对各奖赏因子的影响系数进行调整，以使得奖赏函数能适应各种不同的环境，达到增强移动机器人泛化性的目的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都理工大学，未经成都理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110545286.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于免疫深度强化学习的移动机器人自主导航方法有效

专利文献下载