[发明专利]一种不完全感知环境下的机器人kNN路径规划方法在审
申请号: | 201210455666.7 | 申请日: | 2012-11-05 |
公开(公告)号: | CN102929281A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 江虹;黄玉清;李强;秦明伟;李小霞;张晓琴;石繁荣 | 申请(专利权)人: | 西南科技大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G05B13/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 621010 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 未知动态环境下的机器人路径规划技术具有重要应用价值,对此,本发明公开了一种不完全感知环境下的机器人kNN路径规划方法,主要包括:POMDP模型建立,POMDP模型求解,迭代学习模型的构建。本发明利用迭代模型提高了机器人路径规划时对环境的学习适应能力,可以提高路径规划性能。 | ||
搜索关键词: | 一种 不完全 感知 环境 机器人 knn 路径 规划 方法 | ||
【主权项】:
一种适用于不完全感知环境下的机器人kNN路径规划方法,其特征在于:POMDP模型建立,POMDP模型求解、迭代模型构建三个步骤:(a)POMDP模型建立:采用栅格地图将机器人规划环境划分为小栅格,每个小栅格单元对应POMDP模型状态集S中的一个状态s,动作集A有东(East)、西(West)、南(South)、北(North)四个动作,机器人可以在下一时刻处于相邻4个无障碍栅格单元之一,机器人到达目标状态可获得回报值0,其它情况回报值均为‑1,在机器人与环境交互中,转换概率设置为以较大概率正确执行最优策略选择的动作,以较小概率滑向该动作的左右两侧;(b)POMDP模型求解:机器人求解最优策略需要所经历的动作与观测状态的历史信息,历史信息可以利用信念状态(Belief State)来取代,信念状态b(s)为状态集S上的一个概率分布,求解时以信念状态代替状态,POMDP问题转化为基于信念状态的MDP问题,动作选择策略π转化为由信念状态到动作的映射:π(b)→a,在最优策略π*下,所有信念状态的折扣累积奖赏值组成最优值函数Q(b,a);(c)迭代模型构建:机器人设置起始位置与目标位置后,利用基于强化学习算法的机器人路径规划方法,强化学习算法给每个(s,a)定义了一个状态‑动作值函数Q,即机器人在当前状态选择某一动作更新到下一状态时获得的折算累积回报值,动作选择策略依据该Q值选择最优动作,以使累积回报值最大,迭代学习算法的具体步骤如下:Step1:初始化初始化状态‑动作值函数表Q Table,对Q(s,a)、资格迹e(s,a)、初始信念状态b(s),参数k、学习因子α,以及随机动作选择概率值ε赋初始值,Step 2:获取当前状态st及其k个最近邻状态的信念状态集B1)将机器人的起始位置作为当前状态st;2)计算st与状态集S中欧氏距离最小的k个状态构成的状态集knn;3)计算状态集knn中各个状态的信念状态值bt(s):bt(s)=1/(|S|),Step3:获取信念状态值函数信念状态bt(s)对应的值函数由下式计算: Q ( b , a ) = Σ i ∈ knn Q ( i , a ) b ( i ) 即Q(s,a)表中当前状态st的k最近邻集knn中所有状态值函数Q(i,a)与信念状态b(i)乘积之和,Step4:选择动作依据ε‑greedy动作选择策略选择动作: π ( a ) = arg max a Σ s ∈ S Q ( s , a ) b ( s ) ( U ≥ ϵ ) rand ( a ) ( U < ϵ ) 其中,U为(0,1)之间均匀分布的随机数,概率值ε在每个学习周期(Episode)中以0.99倍的速率衰减,即在 学习周期的初始阶段以较大的概率选择随机动作,避免算法陷入局部最优;随着Q值有效信息的增加,ε逐渐降低,保证了算法收敛性,Step5:执行动作执行动作at后转换到新状态st+1,同时获得观测状态z及回报值R,Step6:计算回报值R机器人执行了动作at后到达新位置,判断该位置是否为目标位置,如果不是,则获得回报值‑1,执行Step7;否则,获得回报值0,执行Step10,Step 7:获取下一状态st+1对应的信念状态集B′1)计算st+1与状态集S中欧氏距离最小的k个状态构成的状态集knn′,2)计算状态集knn′中各个状态的信念状态值bt+1(s′): b t + 1 ( s ′ ) = O ( s ′ , a , z ) Σ s ∈ S T ( s , a , s ′ ) b t ( s ) Σ s ′ ∈ S O ( s ′ , a , z ) Σ s ∈ S T ( s , a , s ′ ) b t ( s ) . 3)重复执行Step3‑Step4,Step8:更新1)资格迹按下式定义: e ( s , j ) = b ( s ) j = a , 0 j ≠ a . ( s ∈ knn ) . 2)对机器人所处状态的所有k最近邻状态的状态‑动作值函数Q(i,a)进行更新: Δq a ( s ) = α ( r + γ max a ′ Q ( b ′ , a ′ ) - Q ( s , a ) b ( s ) ) e ( s , a ) , ( s ∈ knn ) Qt+1(s,a)=Qt(s,a)+Δqa(s)(s∈knn)3)st=st+1,at=at+1,knn=knn′,et+1=γλet,bt(s)=bt+1(s′),Step9:转向Step5,Step10:一次迭代学习过程结束,转到Step 2进入下一个迭代学习过程,直到Q值收敛到最优或近似最优。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210455666.7/,转载请声明来源钻瓜专利网。
- 上一篇:用于免大盘轮胎拆装机增压传动锁紧机构的旋转气缸
- 下一篇:一种风机叶轮