[发明专利]一种基于强化学习和启发式搜索的路径规划方法及系统有效

申请号：	202010800070.0	申请日：	2020-08-11
公开（公告）号：	CN111896006B	公开（公告）日：	2022-10-04
发明（设计）人：	张秀玲;康学楠;李金祥	申请（专利权）人：	燕山大学
主分类号：	G01C21/20	分类号：	G01C21/20;G05B13/04;G05B13/02;G05D1/02
代理公司：	北京高沃律师事务所 11569	代理人：	张梦泽
地址：	066000 河北省***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习启发式搜索路径规划方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于强化学习和启发式搜索的路径规划方法及系统。该方法包括：S1：在马尔科夫决策过程框架下建立环境模型，所述环境模型的状态空间为S，动作空间为A，奖励函数为R，转移概率函数为P；S2：通过Dyna‑Q算法对所述环境模型进行采样更新，对每个状态‑动作对进行评估并确定目标点；S3：基于所述目标点，通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离，确定初始路径；S4：对所述初始路径中每个状态‑动作对进行赋值；S5：根据每个状态‑动作对的评估值以及赋值，确定最优动作；S6：根据最优动作确定最优路径。本发明能够有效的加速强化学习的收敛速度，同时克服启发式搜索规划出次最优解等问题，从而更加快速、准确的规划路径。

技术领域

本发明涉及路径规划领域，特别是涉及一种基于强化学习和启发式搜索的路径规划方法及系统。

背景技术

路径规划是指从起始点到目标点规划一条可行的无障碍路径。传统的路径规划算法分为三类：基于势场的算法，基于采样的算法和启发式搜索算法。最经典的势场算法是由Khatib提出的人工势场法，它假定在一个构型空间中，目标点产生引力场，障碍物产生斥力场，通过合理控制智能体的行走。当斥力过高时，智能体可能会被困在角落，停滞不前。在此基础上Orozco-Rosas等人提出将膜计算与遗传算法和人工势场法相结合，寻找参数来生成可行且安全的路径。基于采样的路径规划算法主要是由LaValle等人提出的快速探索随机树(RRTs)算法，该算法允许移动机器人通过在未知环境中随机采样的方法进行路径规划，但是规划出的路径可能是不平滑的甚至是不可行的。Karaman和Frazzoli对RRT算法进行了改进，提出了RRT*算法。Jeong等人利用三角不等式，改进ChooseParent和Rewire过程，提出了Quick-RRT*算法。在启发式搜索算法中，A*算法被广泛研究。A*算法是在Dijikstra基础上通过计算代价搜索和启发式搜索计算最佳优先搜索，当存在多个最小启发式函数值时，不能保证找到最优解。

强化学习是一种机器学习方法，通过不断的和环境进行交互进行学习。智能体的目的是通过评估每个状态-动作对的值使得在每个状态都能选择最合适的动作。强化学习已经成功应用于路径规划问题，但是强化学习和神经网络结合在学习过程中很不稳定并且容易手链到局部最优解的情况。相反，表格强化学习通过对地图的充分探索后能够保成收敛到最优解。然而，对于大型离散空间或者连续空间来说，大量的数据需要被存储，同时也需要大量的内存，导致效率低下。在强化学习中，Dyna-Q算法通过对采样数据建立模型加以利用，一定程度上加快了学习速度。但是由于缺乏地图的先验知识并且采样效率比较低，导致收敛速度较慢。

发明内容

本发明的目的是提供一种基于强化学习和启发式搜索的路径规划方法及系统，能够有效的加速强化学习的收敛速度，同时克服启发式搜索规划出此最优解的等问题，从而更加快速、准确的规划路径。

为实现上述目的，本发明提供了如下方案：

一种基于强化学习和启发式搜索的路径规划方法，包括：

S1：在马尔科夫决策过程框架下建立环境模型，所述环境模型的状态空间为S，动作空间为A，奖励函数为R，转移概率函数为P；

S2：通过Dyna-Q算法对所述环境模型进行采样更新，对每个状态-动作对进行评估并确定目标点；

S3：基于所述目标点，通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离，确定初始路径；

S4：对所述初始路径中每个状态-动作对进行赋值；

S5：根据每个状态-动作对的评估值以及赋值，确定最优动作；

S6：根据最优动作确定最优路径。

进一步，所述步骤S1具体包括：

S11：利用环境的坐标对状态S进行表征；