[发明专利]基于优先经验回放机制的机器人路径规划方法及系统在审

申请号：	202211199553.5	申请日：	2022-09-29
公开（公告）号：	CN115509233A	公开（公告）日：	2022-12-23
发明（设计）人：	王朋;程诺;倪翠	申请（专利权）人：	山东交通学院
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	250300 ***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于优先经验回放机制机器人路径规划方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于优先经验回放机制的机器人路径规划方法及系统；所述方法，包括：获取路径规划机器人当前状态和目标位置；将路径规划机器人当前状态和目标位置，输入到训练后的深度确定性策略梯度网络，得到机器人动作；路径规划机器人根据得到的机器人动作，完成机器人的路径规划；其中，训练后的深度确定性策略梯度网络，在训练的过程中，机器人生成的经验存储在经验池中，存储方式采用经验样本优先级序列进行存储；其中，经验样本优先级序列，其构建过程为：计算时间差分误差的优先级、当前Actor网络损失函数的优先级和立即奖励的优先级；利用信息熵确定三者的权重，采用加权求和的方式计算经验样本优先级，构建经验样本优先级序列。

技术领域

本发明涉及机器人路径规划技术领域，特别是涉及基于优先经验回放机制的机器人路径规划方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

随着机器人和人工智能技术的深入研究，智能机器人种类日益丰富，在各个行业也发挥着越来越重要的作用。路径规划能够让智能机器人在指定的区域内找到一条从起点到终点的无碰撞安全路径，是智能机器人运动的基础，也是目前研究的热点。其过程为通过传感器感知智能机器人的周围环境信息，确定自身位姿，然后在环境中寻找一条从当前位置到指定位置的最优路径。

近些年来，深度强化学习(DRL)在诸多领域广泛应用，与深度强化学习结合的路径规划算法逐渐成为研究重点。深度强化学习不需要机器人事先了解环境，而是通过感知周围环境状态来预测下一步的动作，执行动作后获得环境反馈的奖励，使机器人从当前状态迁移到下一个状态。重复循环，直至机器人到达目标点或达到设定的最大步数。DeepMind提出DDPG(Deep Deterministic Policy Gradient)算法，采用基于确定性策略梯度算法，将Actor-critic框架与 DQN结合，使用卷积神经网络模拟策略函数和Q函数，使输出结果为确定动作值，解决了深度强化学习在高维度或连续动作任务上无法应用或表现极差的问题，是目前一种有效的路径规划算法。然而，由于对经验样本的利用率不足，DDPG算法对机器人路径规划的环境适应性较差，存在成功率低、收敛速度慢等问题。

传统DDPG采用随机经验回放机制，机器人生成的经验[s_t,a_t,r_t,s_t+1]存储在经验池中，随机选取经验样本对神经网络进行训练。通过打破经验之间的时序相关性，解决经验无法重复利用的问题，加速机器人的学习过程。但ER使用统一的随机采样策略，未考虑不同经验对机器人学习的重要性不同，无法充分利用重要性高的经验，影响了神经网络的训练效率。

发明内容

为了解决现有技术的不足，本发明提供了基于优先经验回放机制的机器人路径规划方法及系统；本发明提出一种动态样本优先级的优先经验回放机制，综合考虑TD-error、Actor网络的损失函数和经验的立即奖励，对三者加权求和来设置经验的优先级。在经验采样时，为奖励大于零的经验(积极经验)赋予更高的优先级，优先利用这些经验更新网络参数。积极的经验样本被选择训练后，在下一轮的训练过程中，将这些经验样本的优先级进行指数衰减，直至降到优先级序列的平均值。增加经验样本的多样性，提高经验样本的利用率，解决了DDPG算法路径规划成功率低、收敛速度慢的问题。

第一方面，本发明提供了基于优先经验回放机制的机器人路径规划方法；

基于优先经验回放机制的机器人路径规划方法，包括：

获取路径规划机器人当前状态和目标位置；将路径规划机器人当前状态和目标位置，输入到训练后的深度确定性策略梯度网络，得到机器人动作；路径规划机器人根据得到的机器人动作，完成机器人的路径规划；

其中，训练后的深度确定性策略梯度网络，在训练的过程中，机器人生成的经验存储在经验池中，存储方式采用经验样本优先级序列进行存储；

其中，经验样本优先级序列，其构建过程为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东交通学院，未经山东交通学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211199553.5/2.html，转载请声明来源钻瓜专利网。