[发明专利]一种不完全感知环境下的机器人kNN路径规划方法在审
申请号: | 201210455666.7 | 申请日: | 2012-11-05 |
公开(公告)号: | CN102929281A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 江虹;黄玉清;李强;秦明伟;李小霞;张晓琴;石繁荣 | 申请(专利权)人: | 西南科技大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G05B13/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 621010 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不完全 感知 环境 机器人 knn 路径 规划 方法 | ||
技术领域
本发明是一种未知动态环境下的机器人路径规划方法,涉及机器人导航技术领域,尤其涉及到机器人路径规划算法方面。
背景技术
随着机器人技术的发展,机器人的能力不断提高,机器人应用领域也不断扩大,尤其是在一些危险、特殊或人不宜前往的应用领域,如核应急处置、太空作业等,都需要机器人的介入。路径规划是机器人导航技术的重要环节,机器人路径规划问题一般定义为:给定机器人的出发点和目标点,在有固定或移动障碍的环境中,规划一条无碰的、满足某种最优准则的路径,使机器人按照该路径运动到目标点。其中,最优准则一般有:所消耗的能量最少、所用的时间最短、路径长度最短等。因此,路径规划方法的研究对寻找一条无碰、最优路径起着至关重要的作用。
机器人要在未知动态环境中安全、可靠地完成路径规划,需要具备能够处理各种不确定情况的能力,以提高对环境的适应性。因此,具有智能学习能力的机器人路径规划显得尤为重要。强化学习算法用于机器人路径规划,其优势在于该算法是一种非监督在线学习方法,且不需要环境的精确模型,因此在动态未知环境下的移动机器人路径规划应用中正受到重视。如:MohammadAbdel Kareem Jaradat的Reinforcementbased mobile robot navigation in dynamic environment一文对强化学习与人工势场法相比较,实验结果表明基于强化学习算法的机器人路径规划方法具有更好的适用性。Hoang-huu VIET的Extended Dyna-QAlgorithm for Path Planning of Mobile Robots一文在Dyna-Q强化学习算法基础上,利用最大似然模型选择动作并更新Q值函数,提高了算法的收敛速度。
这些方法中,机器人都是在完全可观测的环境下完成路径规划,吴峰在“基于决策理论的多智能体系统规划问题研究”一文中从决策论的角度用DEC-POMDP模型,以解决大状态空间下的多智能体规划问题,该方法考虑了环境信息的不完全可观测性,但建立的模型与算法具有较高的复杂性。
针对这些问题,本发明提出一种不完全感知环境下的机器人kNN路径规划方法。该方法采用基于k最近邻分类思想的局部值迭代学习模型,考虑未知环境下动作的不确定性与环境信息获取的不完整性,提高实际环境中机器人路径规划算法的适应性。
发明内容
本发明的目的在于解决未知动态环境下,机器人路径规划存在环境信息的不完全可观测性、大状态空间求解难的问题,以有效提高路径规划算法的适用能力。该方法采用基于k最近邻分类法的局部点值迭代,代替对全部状态的值迭代计算,以有效缓解求解POMDP模型中的维数灾难问题,同时提高路径规划过程中强化学习算法的收敛性。
为了达到上述目的,本发明采取的技术方案是:一种不完全感知环境下的机器人kNN路径规划方法,包括以下步骤:
一、POMDP模型建立:
采用栅格地图将机器人规划环境划分为小栅格。利用栅格法建立环境图,每个小栅格单元对应于POMDP模型状态集S中的一个状态s。动作集A有东(East)、西(West)、南(South)、北(North)四个动作,机器人可以在下一时刻处于相邻的4个无障碍栅格单元之一;机器人到达目标状态可获得回报值0,其它情况回报值均为-1。在机器人与环境不断交互过程中,由于动作的执行存在不确定性,因此转换概率设置为以较大概率正确执行最优策略选择的动作,以较小概率滑向该动作的左右两侧。
二、POMDP模型求解:
机器人POMDP路径规划中,机器人传感器不能完全观测所有环境信息。为了求解最优策略,机器人需要所经历的动作与观测状态的完整序列,即历史信息。历史信息可以利用信念状态(Belief State)来取代,信念状态b(s)为状态集S上的一个概率分布,所有信念状态组成一个|S|维矩阵。求解时以信念状态代替状态,POMDP问题就转化为基于信念状态的MDP问题,动作选择策略π转化为由信念状态到动作的映射:π(b)→a,在最优策略π*下,所有信念状态的折扣累积奖赏值组成最优值函数Q(b,a),从而可利用求解MDP问题的方法kNN-Sarsa(λ)算法求解POMDP问题。
三、迭代学习模型的构建:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210455666.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于免大盘轮胎拆装机增压传动锁紧机构的旋转气缸
- 下一篇:一种风机叶轮