[发明专利]基于改进的DDPG算法的机器人路径导航方法及系统有效
申请号: | 202110512658.0 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113408782B | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 吕蕾;赵盼盼;周青林 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06Q10/047 | 分类号: | G06Q10/047;G06N3/0464;G06N3/0442;G06N3/08;G01C21/20 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 ddpg 算法 机器人 路径 导航 方法 系统 | ||
1.基于改进的DDPG算法的机器人路径导航方法,其特征是,包括:
获取机器人当前状态信息和目标位置;
将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;
机器人根据最优可执行动作数据,完成无碰撞的路径导航;
其中,所述改进的DDPG网络基于DDPG网络,将DDPG网络的奖励值计算利用好奇心奖励机制模型来完成;所述好奇心奖励机制模型,包括:若干个依次串联的LSTM模型;所述依次串联的LSTM模型中,所有LSTM模型的输入端与Actor当前网络的输出端连接,最后一个LSTM模型的输出端与CNN模型的输入端连接,CNN模型的输出端与Actor当前网络的输入端连接;
完成好奇心奖励机制模型的训练,训练步骤包括:
(a)机器人选择在状态St下对应的动作At,并通过与环境交互产生下一个状态St+1和奖励值R;
(b)将机器人与环境交互产生的经验数据(St,At,R,St+1,done)存入经验回放池中,经验回放池中新增一个堆栈结构,以便按照时序性存取经验数据,done代表是否完成机器人导航;
(c)将堆栈结构中带有时序性的经验数据输入LSTM网络,如图2所示,首个LSTM模型只输入对应时刻的机器人状态信息;非首个LSTM模型的输入均由两部分组成,一部分是对应时刻的机器人状态信息,另外一部分是前一时刻的LSTM模型的输出值;最后一个LSTM模型输出下一时刻机器人状态预测值St+1';
(d)将实际的下一个状态St+1与预测出的下一个状态St+1'之间的差值作为内部奖励ri,同时将内部奖励ri与原有的外部奖励re之和作为机器人探索环境的总奖励R;将实际的下一个状态St+1与预测出的下一个状态St+1'之间的差值作为训练过程中的第一个约束条件;
(e)将当前时刻机器人状态St和下一时刻机器人状态预测值St+1',输入到卷积神经网络CNN中,输出反向预测动作At';
(f)反向预测出的动作At'与实际的动作At之间的差值作为训练过程中的第二个约束条件,利用梯度的反向传播训练好奇心奖励机制模型,完成好奇心奖励机制模型的训练;
所述改进的DDPG网络基于DDPG网络,对DDPG网络的经验回放池新增一个堆栈结构;经验回放池中存储两批数据,一个是原来的随机采样获得的样本,一个是堆栈结构获得的时序样本;堆栈结构获得的时序样本,用于好奇心奖励机制模型训练时使用;随机采样获得的样本,用于DDPG网络的Actor模块和Critic模块训练时使用。
2.如权利要求1所述的基于改进的DDPG算法的机器人路径导航方法,其特征是,将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;具体包括:
将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,改进的DDPG网络的Actor模块生成最优可执行动作数据。
3.如权利要求1所述的基于改进的DDPG算法的机器人路径导航方法,其特征是,将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;其中,改进的DDPG网络,包括:
依次连接的Actor模块、经验回放池和Critic模块;
其中,Actor模块,包括依次连接的Actor当前网络和Actor目标网络;
其中,Critic模块,包括依次连接的Critic当前网络和Critic目标网络;
其中,Actor当前网络与好奇心奖励机制模型的所有的LSTM模型连接;Actor当前网络还与好奇心奖励机制模型的CNN模型的输出端连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110512658.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种螺杆泵衬套成型机
- 下一篇:局域网设备网络安全预警方法及装置
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理