[发明专利]一种基于深度强化学习的移动机器人路径规划方法有效

专利信息
申请号: 202110061932.7 申请日: 2021-01-18
公开(公告)号: CN112904848B 公开(公告)日: 2022-08-12
发明(设计)人: 陈满;赖志强;李茂军;李宜伟;李俊日 申请(专利权)人: 长沙理工大学
主分类号: G05D1/02 分类号: G05D1/02
代理公司: 安徽申策知识产权代理事务所(普通合伙) 34178 代理人: 梁维尼
地址: 410004 湖南省长沙市天心区万家*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 移动 机器人 路径 规划 方法
【权利要求书】:

1.一种基于深度强化学习的移动机器人路径规划方法,其特征在于,包括以下步骤:

步骤S1、根据移动机器人的运动场景,确定状态信息;

步骤S2、初始化深度强化学习基本参数,通过模仿学习预训练状态值网络权重,并依据状态值网络权重初始化目标值网络权重;

步骤S3、将状态信息通过状态值网络进行前向传递,并使用ε-贪婪策略指导机器人动作;

步骤S4、通过综合奖励函数获取奖励;

步骤S5、不断通过目标值网络更新权重,以获取最佳的期望奖励,并更新相关参数,实现状态值网络的训练;

步骤S6、记录训练过程中,相关数据和最后训练完成的模型,得到机器人最优路径规划策略;

所述步骤S6中,最优路径规划策略π*为:

其中,Δt为相邻两个动作决策之间的时间间隔,V*(st)为最佳状态值函数,K为从初始状态到最终状态决策总步数;由于相邻两个动作决策之间的时间间隔Δt较小,因此,Δt时间内使用等速模型近似,则π*简化为:

步骤S2.2中,状态值网络的结构主要依靠人工势场法和注意力机制构建,主要状态值网络的结构包括以下步骤:

步骤S2.2.1、将行人和机器人的状态信息dg和dm用人工势场法抽象,得到机器人的势能因素U和行人的势能因素Ui

其中,ξ1为引力势能因子,η1为斥力势能因子;

步骤S2.2.2、将势能因素合并到原有状态中,得到扩充后的机器人状态信息Robp和扩充后的行人的状态信息

Robp=[p,v,r,vpre,U(dg)]

步骤S2.2.3、综合扩充后的机器人和行人的状态信息,得到扩充后的状态信息sp为:

步骤S2.2.4、再使用多层感知器φe将状态sp编码到固定长度的向量ei中:

ei=φe(sp;We)

其中,We为φe的权重,φe使用ReLU激活;

步骤S2.2.5、然后将ei输入到后续的全连接层ρf中,获得机器人与行人的交互特征fi

fi=ρf(ei;Wf)

其中,ρf表示全连接层,使用ReLU激活,Wf为fi的权重;

步骤S2.2.6、再使用多层感知器获取行人注意力分数ψi,用于表示行人对机器人的影响力,表示为:

其中,使用ReLU激活,Wψ为的权重;

步骤S2.2.7、再将交互特征fi和行人注意力分数ψi加权线性组合,得人群特征N:

步骤S2.2.8、最后将Robp和人群特征N输入到多层感知器zv中,得到状态值函数的输出结果V(s),表示为:

V(s)=zv(Robp,N;Wv)

其中,zv使用ReLU激活,Wv为zv的权重。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110061932.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top