[发明专利]基于DoubleDQN网络和深度强化学习的机器人避障方法有效

专利信息
申请号: 201811562344.6 申请日: 2018-12-20
公开(公告)号: CN109407676B 公开(公告)日: 2019-08-02
发明(设计)人: 李湛;杨柳;薛喜地;孙维超;林伟阳;佟明斯;高会军 申请(专利权)人: 哈尔滨工业大学;哈尔滨理工大学
主分类号: G05D1/02 分类号: G05D1/02;G06N3/04
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 刘冰
地址: 150006 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 避障 强化学习 移动机器人 成功率 移动机器人导航 网络训练 响应延迟 并行运行 动作空间 轨迹数据 时间缩短 无偏估计 训练效率 网络 线程 采集 回报 应用 决策
【说明书】:

基于DoubleDQN网络和深度强化学习的移动机器人避障方法,它属于移动机器人导航技术领域。本发明解决了现有的深度强化学习避障方法存在的响应延迟高、所需训练时间长以及避障成功率低的问题。本发明设计了特殊的决策动作空间以及回报函数、将移动机器人轨迹数据采集和Double DQN网络训练放在两个线程下并行运行,可以有效提高训练效率,解决了现有深度强化学习避障方法需要的训练时间长的问题;本发明使用Double DQN网络对动作值进行无偏估计,防止陷入局部最优,克服现有深度强化学习避障方法避障成功率低和响应延迟高的问题,与现有方法相比,本发明可以将网络训练时间缩短到现有技术的20%以下,且保持100%的避障成功率。本发明可以应用于移动机器人导航技术领域。

技术领域

本发明属于移动机器人导航技术领域,具体涉及一种移动机器人避障方法。

背景技术

随着移动机器人行业的发展,避碰是许多机器人应用的核心,例如在多智能体协调,家庭服务机器人和仓库机器人等。然而,在寻找所用时间最短的路径的同时,还要保证准确的避障效果仍然是一项非常具有挑战性的工作。因为在很多情况下,需要在准确避障的同时,能以最短的时间抵达给定目标位置。

目前根据移动机器人间是否互相通信,将避障算法类型分为两大类,分别是通信类和非通信类。然而在实际应用场景中,我们有时候很难实时获取可靠的通信。关于非通信类型的避碰的现有工作可以大致分为两类,基于响应和基于局部路径规划。其中基于局部路径规划的方法通过预测其它移动机器人或者障碍物的运动趋势来明确智能体之间的未来状态的演变,然而,在拥挤的环境中,该类算法通常会将当前所在的区域内大部分面积标记为不安全区域,这将会导致机器人冻结问题。此外,由于模型和测量的不确定性,特别是在未来几秒内,其他智能体的实际路径可能不符合预测路径。因此,基于轨迹的方法也需要以高速率(传感器刷新率)运行,这将占用更多计算资源以及时间。

对于基于响应类的避障算法分为自主学习类和非自主学习类,非自主学习类的算法诸如人工势场法等算法,但由于当车子距离障碍物过近或者离目标位置太远将会导致局部震荡等一系列问题,虽然后续有改进版本的人工势场法,但也使得其参数变得很难整定,实际应用起来很难。对于自主学习类的移动机器人避障算法,目前主要是基于深度强化学习。目前应用深度强化学习进行避障较为成功的案例有诸如基于预测控制的深度强化学习避障(Decentralized Non-communicating Multiagent Collision Avoidance with DeepReinforcement Learning,CADRL),基于DDPG的深度强化学习避障(Virtual to real DeepReinforcement Learning Continuous Control of Mobile Robots for MaplessNavigation,VDRL-CCMRMN),以及DQN算法。

然而对于基于预测控制的深度强化学习(CADRL)的避障算法,首先其基于预测控制来线性预测行人的未来状态,这使得获取的系统状态并不准确;其次,其对动作空间里所有的动作采取的是逐个评估的方法,这意味着在决策时会加大响应延迟;最后,CADRL算法里涉及到的奖励回报仅仅线性叠加到动作值上,并没有真正参与到网络权值的更新,这不能称之为深度强化学习,因为其避障能力并不是学习出来的。

对于DQN算法,由于其只有一个网络,该网络即参与动作值的估计,也参与决策,产生的估计往往是有偏估计,易陷入局部最优,导致的结果是在避障性能上表现不佳,避障成功率不高。

对于基于DDPG的深度强化学习(VDRL-CCMRMN)避障算法,由于该算法是端到端的训练方式,使得移动机器人训练得到避障能力以及寻找目标能力所花费的时间代价巨大。

发明内容

本发明的目的是为解决现有的深度强化学习避障方法存在的响应延迟高、所需训练时间长以及避障成功率低的问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学;哈尔滨理工大学,未经哈尔滨工业大学;哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811562344.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top