[发明专利]一种基于深度强化学习的移动机器人路径规划方法有效
申请号: | 202110061932.7 | 申请日: | 2021-01-18 |
公开(公告)号: | CN112904848B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 陈满;赖志强;李茂军;李宜伟;李俊日 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 安徽申策知识产权代理事务所(普通合伙) 34178 | 代理人: | 梁维尼 |
地址: | 410004 湖南省长沙市天心区万家*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 移动 机器人 路径 规划 方法 | ||
1.一种基于深度强化学习的移动机器人路径规划方法,其特征在于,包括以下步骤:
步骤S1、根据移动机器人的运动场景,确定状态信息;
步骤S2、初始化深度强化学习基本参数,通过模仿学习预训练状态值网络权重,并依据状态值网络权重初始化目标值网络权重;
步骤S3、将状态信息通过状态值网络进行前向传递,并使用ε-贪婪策略指导机器人动作;
步骤S4、通过综合奖励函数获取奖励;
步骤S5、不断通过目标值网络更新权重,以获取最佳的期望奖励,并更新相关参数,实现状态值网络的训练;
步骤S6、记录训练过程中,相关数据和最后训练完成的模型,得到机器人最优路径规划策略;
所述步骤S6中,最优路径规划策略π*为:
其中,Δt为相邻两个动作决策之间的时间间隔,V*(st)为最佳状态值函数,K为从初始状态到最终状态决策总步数;由于相邻两个动作决策之间的时间间隔Δt较小,因此,Δt时间内使用等速模型近似,则π*简化为:
步骤S2.2中,状态值网络的结构主要依靠人工势场法和注意力机制构建,主要状态值网络的结构包括以下步骤:
步骤S2.2.1、将行人和机器人的状态信息dg和dm用人工势场法抽象,得到机器人的势能因素U和行人的势能因素Ui:
其中,ξ1为引力势能因子,η1为斥力势能因子;
步骤S2.2.2、将势能因素合并到原有状态中,得到扩充后的机器人状态信息Robp和扩充后的行人的状态信息
Robp=[p,v,r,vpre,U(dg)]
步骤S2.2.3、综合扩充后的机器人和行人的状态信息,得到扩充后的状态信息sp为:
步骤S2.2.4、再使用多层感知器φe将状态sp编码到固定长度的向量ei中:
ei=φe(sp;We)
其中,We为φe的权重,φe使用ReLU激活;
步骤S2.2.5、然后将ei输入到后续的全连接层ρf中,获得机器人与行人的交互特征fi:
fi=ρf(ei;Wf)
其中,ρf表示全连接层,使用ReLU激活,Wf为fi的权重;
步骤S2.2.6、再使用多层感知器获取行人注意力分数ψi,用于表示行人对机器人的影响力,表示为:
其中,使用ReLU激活,Wψ为的权重;
步骤S2.2.7、再将交互特征fi和行人注意力分数ψi加权线性组合,得人群特征N:
步骤S2.2.8、最后将Robp和人群特征N输入到多层感知器zv中,得到状态值函数的输出结果V(s),表示为:
V(s)=zv(Robp,N;Wv)
其中,zv使用ReLU激活,Wv为zv的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110061932.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种pu氏合金炉辊配料装置
- 下一篇:开关电路的控制方法、控制电路及开关电路