[发明专利]动态环境下基于深度强化学习的移动机器人避碰规划方法有效

申请号：	201910953396.4	申请日：	2019-10-09
公开（公告）号：	CN110632931B	公开（公告）日：	2022-06-21
发明（设计）人：	王宏健;何姗姗;严浙平;付忠健;阮力;刘超伟	申请（专利权）人：	哈尔滨工程大学
主分类号：	G01S17/93	分类号：	G01S17/93;G05D1/02;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	动态环境基于深度强化学习移动机器人规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种动态环境下基于深度强化学习的移动机器人避碰规划方法，属于移动机器人导航技术领域。本发明通过激光测距仪采集原始数据，将原始数据处理后作为神经网络的输入，建立LSTM神经网络，通过A3C算法，神经网络输出相应参数，经过处理获得机器人每一步的动作。本发明无需对环境进行建模，更加适用于未知障碍物环境，采用actor‑critic框架与时间差分算法，实现低方差的同时更适用于连续动作空间，实现边训练边学习的效果。设计具有艏向转角限制的连续动作空间，且采用4个线程并行学习训练，与一般深度强化学习方法相比，大大提高学习训练时间，减少样本相关性，保障探索空间的高利用性与探索策略的多样性，从而提升算法收敛性、稳定性以及避障成功率。

技术领域

本发明属于移动机器人导航技术领域，具体涉及一种动态环境下基于深度强化学习的移动机器人避碰规划方法。

背景技术

移动机器人的研究始于20世纪60年代，迄今为止该领域已成为机器人学的重要研究方向之一。随着科技水平的不断进步与发展，自主移动机器人具有较高的智能化水平，可以在无人监督的情况下自主完成任务。因此在搜索、探测、消防、侦查等领域，移动机器人具有良好的发展空间与前景。在上述特殊领域，环境通常复杂多变，不仅有动态障碍物同时也有静态障碍物，要想成功实现移动机器人的功能就必须设计合适的避障算法，从而使机器人具有实时避障的能力。自主移动机器人的智能避障是指机器人通过传感器检测到障碍物并采集其状态信息，按照一定的算法进行的路径规划，从而避开障碍物，最终到达目的地。深度强化学习是近年来人工智能领域最受关注的方向之一，它将深度学习的感知能力和强化学习的决策能力相结合，直接通过高维感知输入的学习来控制Agent的行为，为解决复杂系统的感知决策问题提供了思路。近几年的深度强化学习算法的相关研究主要围绕DQN即DeepQ-network算法及其相关改进展开。DeepMind公司的Mnih等提出了开创性的DQN，通过DQN，Agent仅通过从图像中获取原始像素就能学会玩视频游戏。Mnih引入了单独的Q函数网络并将迭代式更新引入DQN从而降低目标值与当前值的相关性，提出改进版DQN即NatureDQN。Wang等人提出了决斗模型即Dueling DQN，将状态值和动作优势值分开，使得网络架构和RL算法能够更好地结合在一起。Hasselt针对DQN中学习过程中近似函数尺度不变，从而使reward剪切到预定范围中，最终影响不同游戏应用算法质量这一问题，提出使用自适应的规范化学习中的目标。Lillicrap等人提出了DDPG，DDPG是深度强化学习应用于连续控制强化学习领域的一种重要算法，使用相同的参数解决了20多个连续控制的仿真问题。2016年，Mnih等人提出异步优势行动者-评论家A3C算法，该算法融合了之前几乎所有的深度强化学习算法，它可以在相对轻量级的许多游戏任务中实现卓越的效果。传统避障方法主要实现机器人无碰全局路径规划，主要经典算法有：人工势场法、模糊控制算法、A*算法、栅格法等。智能避障方法则致力于解决传统避障方法中对于未知坏境下的明显缺陷问题，使机器人能在动态未知环境下仍有良好避障效果。比较新颖的智能避障方法有：基于神经网络的机器人避障方法、结合强化学习的避障算法等。强化学习、深度强化学习在移动机器人避障、导航等问题上都有着良好表现。总的来说，传统避障方法局限性较大，特别是对于复杂、动态未知环境不太适用；而智能避障算法特别是近几年热门的结合深度学习、强化学习的避障算法对于连续高维复杂动态未知环境有极大优势。

一般的强化学习仅适用于离散动作空间，例如DQN，而对于高维连续动作空间，会出现计算爆炸等现象，本发明提出的一种动态环境下基于深度强化学习的移动机器人避碰规划方法，则适用于连续动作空间，通过异步学习机制消除相关性，节省了通信成本、时间成本，从而提升探索策略的多样性最终提升算法稳定性。本发明提出的一种动态环境下基于深度强化学习的移动机器人避碰规划方法明显优于传统方法与一般深度强化学习方法，且本文通过实验充分说明了在面对不同类型动态障碍物环境下该方法具有自适应性强的特点，能更好实现移动机器人的避障功能。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910953396.4/2.html，转载请声明来源钻瓜专利网。

上一篇：适用于园圃智能化的智能行车控制方法及装置、存储介质
下一篇：基于膜计算和粒子群优化的局部路径规划算法

同类专利

专利分类

G 物理

G01 测量；测试
G01S 无线电定向；无线电导航；采用无线电波测距或测速；采用无线电波的反射或再辐射的定位或存在检测；采用其他波的类似装置
G01S17-00 应用除无线电波外的电磁波的反射或再辐射系统，例如，激光雷达系统
G01S17-02 .应用除无线电波外的电磁波反射的系统
G01S17-66 .应用除无线电波外的电磁波的跟踪系统
G01S17-74 .应用除无线电波外的电磁波的再辐射系统，例如IFF，即敌我识别
G01S17-87 .应用除无线电波外电磁波的系统的组合
G01S17-88 .专门适用于特定应用的激光雷达系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]动态环境下基于深度强化学习的移动机器人避碰规划方法有效

专利文献下载