[发明专利]一种基于自适应权重强化学习的六足机器人避障方法有效
申请号: | 202010416376.6 | 申请日: | 2020-05-17 |
公开(公告)号: | CN111552183B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 李华雄;任其成;陈春林;王岚;唐开强;王子辉;朱张青;辛博 | 申请(专利权)人: | 南京大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 南京北辰联和知识产权代理有限公司 32350 | 代理人: | 于忠洲 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 权重 强化 学习 机器人 方法 | ||
1.一种基于自适应权重强化学习的六足机器人避障方法,其特征在于,包括如下步骤:
步骤1,由六足机器人通过测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合;
步骤2,根据有限的状态集合建立六足机器人避障模型,再利用自适应权重强化学习算法学习出最优网络模型参数θ*;
步骤3,根据上述学习出的最优网络模型参数θ*得到六足机器人避障的最优目标策略,由最优目标策略获得六足机器人在t时刻避障所要采取的动作at;
步骤2中,利用自适应权重强化学习算法学习出最优网络模型参数θ*的具体步骤为:
步骤2.1,根据有限的状态集合在python中建立六足机器人避障模型;
步骤2.2,设定大循环参数k,且1≤k≤K,K表示终止时刻;
步骤2.3,记录k时刻六足机器人从环境中获得的回报值rk以及k时刻六足机器人的状态sk,将样本(sk-1,ak-1,rk-1,sk)存入回放存储中并设置其中ak-1表示在状态sk-1下六足机器人采取的动作,rk-1表示六足机器人对应获得的回报值,CIF为对应样本复杂度指示函数,表示最大的复杂度指示函数中的最大值;
步骤2.4,设定小循环参数m,且m的初始值为1;
步骤2.5,当m≤M时,其中M表示神经网络训练的批大小,根据式(3)自适应选择合适的训练样本:
式(3)中,m作为对应样本编号,P(m)为编号m样本的采样概率,ψ为指数随机因子,CIF为对应样本复杂度指示函数,指数随机因子ψ→[0,1]决定采用优先级的程度,当ψ值为0时,为均匀采样,当ψ值为1时,为优先级采样;
步骤2.6,计算对应样本的时间差分误差δm:
式(4)中,rm为样本m时六足机器人从环境中获得的回报值,γ∈[0,1]为折扣因子,sm+1为sm的下一个状态,am+1为状态sm+1下的动作,θ-为目标Q值网络参数,θ为主深度Q值网络参数;
步骤2.7,计算编号m样本的重要性采样权重wm:
式(5)中,D为回放存储的容量,P(m)为状态样本序列xm=(sm,am,rm,sm+1)的采样概率,β为补偿系数,表示重要性采样权重参数中的最大值;
步骤2.8,计算权重变化量:
式(6)中,Δ是权重变化率,初始化为0,表示目标Q值网络对参数θ的导数;
步骤2.9,根据复杂度指示函数式(7)计算编号m样本的复杂度;
CIFm=RAF(rm,δm)+ηCPF(cnm+1) (7)
式(7)中,RAF(rm,δm)为样本回报值的重要性参数,CPF(cnm+1)被定义为样本的使用次数的影响参数,为单调递增的函数,且值域在0到1之间,cnm+1是样本对应的使用次数,η为样本的覆盖惩罚项的权衡参数;
RAF(rm,δm)的计算公式为:
RAF(rm,δm)=|δm|*RWF(rm)+τ (8)
式(8)中,τ为一个较小的正数,RWF(rm)的计算公式为:
CPF(cnm+1)的计算公式为:
式(10)中,p和q均大于0,且为两个预设常数;
步骤2.10,m的值自加1,若m≤M,则返回步骤2.5,若m>M,则结束小循环进入步骤2.11;
步骤2.11,利用随机梯度下降更新主深度Q值网络参数,更新公式为:
SGD(θ←θ+λ*Δ,and resetΔ=0) (11)
式(11)中λ为更新步长,式(12)中y为样本m对应的理论标记值,Loss(θ;Q,y)为损失函数,式(13)中θLoss为损失函数Loss(θ;Q,y)对其中的参数θ的导数;
步骤2.12,延迟更新目标Q值网络参数:
θ-←θ (14)
式(14)在计算过程中应保持目标Q值网络参数θ的固定,参数的更新应隔一段时间更新一次;
步骤2.13,六足机器人根据式(15)选择m时刻目标策略对应的动作am为:
式(15)中,sm表示六足机器人m时刻对应的状态,π为避障的目标策略,pm表示选择这个动作的概率,ε为一个较小的正数;
步骤2.14,k的值自加1,若k≤K,则返回步骤2.3,若k>K且公式(12)中的Loss(θ;Q,y)的单调减少而收敛到最小值,则结束大循环,得到了最优网络模型参数θ*。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010416376.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种服装制造用上蜡粉碎系统
- 下一篇:一种智能遥控终端