[发明专利]一种基于分层强化学习框架的移动机器人无图导航方法有效
申请号: | 202010283116.6 | 申请日: | 2020-04-13 |
公开(公告)号: | CN111506063B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 李骜;王童;王明会 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G01S17/93;G01S13/93 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 邓治平 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分层 强化 学习 框架 移动 机器人 导航 方法 | ||
1.一种基于分层强化学习框架的移动机器人无图导航方法,其特征在于,包括如下步骤:
步骤1、配置交互式训练环境,设置移动机器人参数;移动机器人通过与环境交互的方式学习无图导航策略;
步骤2、构建基于分层强化学习模型的导航控制框架;
所述步骤2具体包括如下步骤:
2.1)基于分层强化学习搭建一种包含高层次与低层次的决策模型,低层决策模型由低层DRL模型与朝向控制器两个部分组成,其中低层DRL模型用于实现避障策略,朝向控制器用于实现目标接近策略,且两者输出的动作均能够对机器人运动进行直接控制;高层决策模型仅由一种高层DRL模型构成,用于选择不同的低层行为策略作为每一步移动的实际控制策略;
所述高层DRL模型与低层DRL模型均采用Dueling-DDQN算法实现,朝向控制器由手动设计实现,根据机器人的相对偏转方向来输出与之相反的控制动作,使得移动机器人的朝向始终趋向于目标点方向;
2.2)实时采集到的传感器数据经过预处理与融合操作后用于输入到不同决策模型中,其中激光雷达扫描数据作为低层DRL模型的输入状态sl;目标点的相对坐标[x,y]作为朝向控制器的输入;机器人的移动线速度和角速度[v,ω]再与[x,y]、sl进行拼接作为高层DRL模型的状态输入sh;
2.3)对于移动机器人的每一步运动,首先高层决策模型根据当前状态sh选择两种低层行为策略之一作为最终的控制策略,然后激活相应的低层决策模型输出控制动作,使得移动机器人以相应的行为策略进行移动;为减小移动机器人在行进过程中由于频繁切换行为策略造成的抖动,不同低层行为策略执行动作的持续时间不同;具体包括:
高层模型每次完成决策后,根据被激活的低层行为策略的种类,确定下一次高层决策时刻到来时是否更新高层决策的选择动作,目标接近策略每次被激活后只进行单步控制,该步动作执行结束后,高层模型继续根据当前状态sh选择性激活行为策略;避障策略每次被激活后则进行连续5步控制,即5步之内高层模型不进行新的决策,移动控制策略依然保持为避障策略,5步移动完成之后,高层模型再继续根据sh选择下一步的行为策略;
步骤3、采用联合辅助训练方案对网络模型进行训练;在训练初期,联合训练辅助器代替高层决策模型进行决策,完成对低层行为策略的选择,并激活相应的低层决策模型控制机器人移动;
步骤4、利用训练好的模型实现导航任务。
2.根据权利要求1所述的一种基于分层强化学习框架的移动机器人无图导航方法,其特征在于,所述步骤1具体包括如下步骤:
1.1)移动机器人通过与环境交互的方式学习无图导航策略,采用Stage二维模拟器作为训练环境,调整训练环境中的障碍物布局,增加导航难度;
1.2)在模拟器中设置移动机器人的运动方式,添加激光雷达传感器用于感知环境,并设置激光雷达的传感器类型、扫描精度、以及检测范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010283116.6/1.html,转载请声明来源钻瓜专利网。