[发明专利]动态环境下基于深度强化学习的移动机器人避碰规划方法有效
申请号: | 201910953396.4 | 申请日: | 2019-10-09 |
公开(公告)号: | CN110632931B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 王宏健;何姗姗;严浙平;付忠健;阮力;刘超伟 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G01S17/93 | 分类号: | G01S17/93;G05D1/02;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 环境 基于 深度 强化 学习 移动 机器人 规划 方法 | ||
1.一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于,包括以下步骤:
步骤一:通过移动机器人所携带的激光测距仪获取原始数据,获得障碍物信息;
步骤二:对步骤一中原始数据进行数据处理后,与在全局坐标系下的相关位置、角度信息结合进行相应处理,处理后的数据即A3C算法的状态S;
步骤三:设计A3C算法的动作空间、奖励函数,奖励函数包括对与目标距离的惩罚、与障碍物距离的惩罚以及对所用步长的惩罚;
步骤四:设计障碍物环境,构建多类型动态障碍物;
步骤五:建立LSTM神经网络,将步骤二中所得状态作为神经网络的输入,输出经处理后即为移动机器人所选择的动作即艏向角角度;
步骤六:通过所建立的神经网络,使用A3C算法进行训练学习,在训练过程中,神经网络针对每一步的状态-动作对进行好坏评价,通过评价值不断更新网络相应参数,最终朝着使奖励最大化的方向更新,经过预设回合的训练后,移动机器人通过训练好的网络能够实现有效避障。
2.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤一中所述的通过移动机器人所携带的激光测距仪获取原始数据,获得障碍物信息;原始数据为一系列离散的数据点,均包含距离信息与方位角信息,通过以上信息获取局部坐标系下障碍物距离与方位信息。
3.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤二中将激光传感器获得的原始数据进行数据处理后,与在全局坐标系下的移动机器人位置、目标位置以及艏向角角度信息再进行相应处理后作为A3C算法的状态具体包括:局部坐标系XmOmYm是指以移动机器人自身为坐标原点,以移动机器人运动方向为X轴正方向,Y轴正方向与X轴垂直且满足右手定则;全局坐标系XeOeYe则为大地坐标系;步骤一中获取的原始数据是基于局部坐标系下的方位信息,需转换成全局坐标系下的方位信息与目标位置信息、移动机器人自身位置信息以及相关角度信息共同处理后作为算法的状态。
4.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤三中所述的设计A3C算法的动作空间、奖励函数,奖励函数包括对与目标距离的惩罚、与障碍物距离的惩罚以及对所用步长的惩罚,所设计的奖励函数包含三部分,分别是对距离最近的障碍物与当前移动机器人距离的惩罚,距离越近惩罚越大;对目标与移动机器人距离的惩罚,距离越远惩罚越大;对步数的惩罚,在每个回合中,所用步数越多即时间越长,故步数越多惩罚越大。
5.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤四中所述的设计障碍物环境,构建多类型动态障碍物,在构建形状不同的静态障碍物基础上,增加四种动态障碍物:匀速直线运动、匀速正弦运动、匀速圆周运动、匀加速直线运动动态障碍物,并分别就每种动态障碍物进行不同速度与加速度的训练学习与测试。
6.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤五中所述的建立LSTM神经网络,将步骤二中所得状态作为神经网络的输入,输出经处理后即为移动机器人所选择的动作即艏向角度:整个网络框架分为全局网络与局部网络,全局网络与局部网络中都含有Actor与Critic两个网络结构;Actor网络与Critic网络均由一个输入层、一个LSTM隐含层、两个全连接隐含层、一个输出层构成。
7.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤六中所述的通过所建立的神经网络,使用A3C算法进行训练学习,在训练过程中,神经网络针对每一步的状态-动作对进行好坏评价,通过评价值不断更新网络相应参数,最终实现奖励最大化目的,经过预设回合的训练后,移动机器人通过训练好的网络能够实现有效避障中,整个网络由4个线程并行工作,其中,全局网络保存其中最好的参数再通过同步机制拉送到每个局部网络中,而Actor网络负责选择动作,Critic网络则对当前状态-动作对进行评价,Actor网络按照Critic网络的评价进行参数更新,当训练结束后,通过该网络,移动机器人能够自主实现实时避障。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910953396.4/1.html,转载请声明来源钻瓜专利网。