[发明专利]基于DoubleDQN网络和深度强化学习的机器人避障方法有效

专利信息
申请号: 201811562344.6 申请日: 2018-12-20
公开(公告)号: CN109407676B 公开(公告)日: 2019-08-02
发明(设计)人: 李湛;杨柳;薛喜地;孙维超;林伟阳;佟明斯;高会军 申请(专利权)人: 哈尔滨工业大学;哈尔滨理工大学
主分类号: G05D1/02 分类号: G05D1/02;G06N3/04
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 刘冰
地址: 150006 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于DoubleDQN网络和深度强化学习的移动机器人避障方法,它属于移动机器人导航技术领域。本发明解决了现有的深度强化学习避障方法存在的响应延迟高、所需训练时间长以及避障成功率低的问题。本发明设计了特殊的决策动作空间以及回报函数、将移动机器人轨迹数据采集和Double DQN网络训练放在两个线程下并行运行,可以有效提高训练效率,解决了现有深度强化学习避障方法需要的训练时间长的问题;本发明使用Double DQN网络对动作值进行无偏估计,防止陷入局部最优,克服现有深度强化学习避障方法避障成功率低和响应延迟高的问题,与现有方法相比,本发明可以将网络训练时间缩短到现有技术的20%以下,且保持100%的避障成功率。本发明可以应用于移动机器人导航技术领域。
搜索关键词: 避障 强化学习 移动机器人 成功率 移动机器人导航 网络训练 响应延迟 并行运行 动作空间 轨迹数据 时间缩短 无偏估计 训练效率 网络 线程 采集 回报 应用 决策
【主权项】:
1.基于DoubleDQN网络和深度强化学习的移动机器人避障方法,其特征在于,该方法包括以下步骤:步骤一:利用移动机器人上的Kinect对移动机器人所处于的当前环境进行地图构建,并提取出移动机器人所处于的当前环境中的所有障碍物信息;步骤二:将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下,将局部坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息作为Double DQN网络的状态输入;所述步骤二的具体过程为:将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下,将局部坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息作为DoubleDQN网络的状态输入;所述局部坐标系是以移动机器人自身为坐标原点,以移动机器人指向目标位置的方向为x轴正方向,y轴的方向满足右手定则,且垂直于x轴方向;DoubleDQN网络的状态输入s′的表达式如公式(1)所示:其中:sjn代表全局坐标下的网络输入状态,rotate(sjn)代表对全局坐标下的网络输入状态进行坐标变换,vx′代表移动机器人速度在局部坐标系下的x轴分量,vy′代表移动机器人速度在局部坐标系下的y轴分量,代表障碍物在局部坐标系下的横坐标x,代表障碍物在局部坐标系下的纵坐标y,代表障碍物的半径大小;dg为当前时刻移动机器人到目标位置的直线距离,且dg=||pg‑p||2,pg为坐标变换后的目标位置,p为移动机器人自身的位置,da为当前时刻移动机器人与障碍物之间的直线距离,且为坐标变换后的障碍物位置,r为移动机器人半径大小,为坐标变换后的障碍物速度,代表障碍物速度在局部坐标系下的x轴分量,代表障碍物速度在局部坐标系下的y轴分量;θ代表移动机器人速度与局部坐标系的x轴的夹角;步骤三:设计Double DQN网络输出的决策动作空间;所述步骤三的具体过程为:在局部坐标系下,设计DoubleDQN网络输出的决策动作空间a的集合为A,其中:集合A是指以局部坐标系的x轴方向为中心方向,以与中心方向角度相差‑90°,‑85°,‑80°,···0°,5°,···85°,90°的一组候选速度方向的集合,则集合A中包含有37个候选动作;步骤四:设计Double DQN网络的回报函数,回报函数由步长奖励、碰撞惩罚、耗时惩罚和抵达目标位置奖励组成;所述步骤四的具体过程为:DoubleDQN网络的回报函数R(sjn,a)的形式如公式(2)所示:R(sjn,a)=R1+R2+R3+R4     (2)其中:R1=k·(dg_last‑dg),R1表示步长奖励,dg表示当前时刻移动机器人与目标位置的直线距离,dg_last表示上一时刻移动机器人与目标位置的直线距离;k表示步长奖励系数;R2表示碰撞惩罚,da和da_min分别表示当前时刻移动机器人与障碍物之间的直线距离以及移动机器人与障碍物之间的最小安全距离;R3=‑c·timer_count,R3表示耗时惩罚,timer_count表示移动机器人到目标位置所用时间,c代表耗时惩罚系数;R4表示若到达目标位置,则给定一个奖励,否则不给予任何奖励与惩罚;步骤五:确定Double DQN网络的决策输出策略;所述步骤五的具体过程为:对于视野中只有一个障碍物的情况:采用公式(3)所示的输出策略,所有动作值由DoubleDQN网络输出一次性给出;其中:action代表网络的决策输出,epsilon表示一个随机产生的0到1之间的浮点数,action_space表示决策动作空间a的集合A,random函数表示从集合A内随机取一个动作;Q(state)表示将当前状态state输入到网络Q中,maxQ(state)表示从网络Q的输出中取最大值,表示网络Q输出的最大值所对应的候选动作;动作噪声ε随时间衰减,ε的表达式如公式(4)所示,式中:train_time代表训练时间;对于视野中大于一个障碍物的情况:用表示与移动机器人相邻的第i个障碍物,则移动机器人与第i个障碍物组成的状态的表达式为:s表示移动机器人在局部坐标系下的状态;则DoubleDQN网络的决策输出策略的表达式如公式(6)所示;其中:表示利用全部的n个障碍物对当前某个待评估的候选动作的评分,则每个候选动作对应得到n个分数,在n个分数中取最低分,则代表每个候选动作对应的最低分;代表最高的最低分所对应的候选动作;步骤六:建立Double DQN网络,并对建立的Double DQN网络进行训练,直至训练过程中移动机器人每个回合获得的总体奖励不再增加时停止训练,得到训练好的Double DQN网络,将训练好的Double DQN网络应用于移动机器人的避障。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学;哈尔滨理工大学,未经哈尔滨工业大学;哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811562344.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top