[发明专利]一种基于自适应权重强化学习的六足机器人避障方法有效

专利信息
申请号: 202010416376.6 申请日: 2020-05-17
公开(公告)号: CN111552183B 公开(公告)日: 2021-04-23
发明(设计)人: 李华雄;任其成;陈春林;王岚;唐开强;王子辉;朱张青;辛博 申请(专利权)人: 南京大学
主分类号: G05B13/04 分类号: G05B13/04
代理公司: 南京北辰联和知识产权代理有限公司 32350 代理人: 于忠洲
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 自适应 权重 强化 学习 机器人 方法
【权利要求书】:

1.一种基于自适应权重强化学习的六足机器人避障方法,其特征在于,包括如下步骤:

步骤1,由六足机器人通过测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合;

步骤2,根据有限的状态集合建立六足机器人避障模型,再利用自适应权重强化学习算法学习出最优网络模型参数θ*;

步骤3,根据上述学习出的最优网络模型参数θ*得到六足机器人避障的最优目标策略,由最优目标策略获得六足机器人在t时刻避障所要采取的动作at

步骤2中,利用自适应权重强化学习算法学习出最优网络模型参数θ*的具体步骤为:

步骤2.1,根据有限的状态集合在python中建立六足机器人避障模型;

步骤2.2,设定大循环参数k,且1≤k≤K,K表示终止时刻;

步骤2.3,记录k时刻六足机器人从环境中获得的回报值rk以及k时刻六足机器人的状态sk,将样本(sk-1,ak-1,rk-1,sk)存入回放存储中并设置其中ak-1表示在状态sk-1下六足机器人采取的动作,rk-1表示六足机器人对应获得的回报值,CIF为对应样本复杂度指示函数,表示最大的复杂度指示函数中的最大值;

步骤2.4,设定小循环参数m,且m的初始值为1;

步骤2.5,当m≤M时,其中M表示神经网络训练的批大小,根据式(3)自适应选择合适的训练样本:

式(3)中,m作为对应样本编号,P(m)为编号m样本的采样概率,ψ为指数随机因子,CIF为对应样本复杂度指示函数,指数随机因子ψ→[0,1]决定采用优先级的程度,当ψ值为0时,为均匀采样,当ψ值为1时,为优先级采样;

步骤2.6,计算对应样本的时间差分误差δm

式(4)中,rm为样本m时六足机器人从环境中获得的回报值,γ∈[0,1]为折扣因子,sm+1为sm的下一个状态,am+1为状态sm+1下的动作,θ-为目标Q值网络参数,θ为主深度Q值网络参数;

步骤2.7,计算编号m样本的重要性采样权重wm

式(5)中,D为回放存储的容量,P(m)为状态样本序列xm=(sm,am,rm,sm+1)的采样概率,β为补偿系数,表示重要性采样权重参数中的最大值;

步骤2.8,计算权重变化量:

式(6)中,Δ是权重变化率,初始化为0,表示目标Q值网络对参数θ的导数;

步骤2.9,根据复杂度指示函数式(7)计算编号m样本的复杂度;

CIFm=RAF(rmm)+ηCPF(cnm+1) (7)

式(7)中,RAF(rmm)为样本回报值的重要性参数,CPF(cnm+1)被定义为样本的使用次数的影响参数,为单调递增的函数,且值域在0到1之间,cnm+1是样本对应的使用次数,η为样本的覆盖惩罚项的权衡参数;

RAF(rmm)的计算公式为:

RAF(rmm)=|δm|*RWF(rm)+τ (8)

式(8)中,τ为一个较小的正数,RWF(rm)的计算公式为:

CPF(cnm+1)的计算公式为:

式(10)中,p和q均大于0,且为两个预设常数;

步骤2.10,m的值自加1,若m≤M,则返回步骤2.5,若m>M,则结束小循环进入步骤2.11;

步骤2.11,利用随机梯度下降更新主深度Q值网络参数,更新公式为:

SGD(θ←θ+λ*Δ,and resetΔ=0) (11)

式(11)中λ为更新步长,式(12)中y为样本m对应的理论标记值,Loss(θ;Q,y)为损失函数,式(13)中θLoss为损失函数Loss(θ;Q,y)对其中的参数θ的导数;

步骤2.12,延迟更新目标Q值网络参数:

θ-←θ (14)

式(14)在计算过程中应保持目标Q值网络参数θ的固定,参数的更新应隔一段时间更新一次;

步骤2.13,六足机器人根据式(15)选择m时刻目标策略对应的动作am为:

式(15)中,sm表示六足机器人m时刻对应的状态,π为避障的目标策略,pm表示选择这个动作的概率,ε为一个较小的正数;

步骤2.14,k的值自加1,若k≤K,则返回步骤2.3,若k>K且公式(12)中的Loss(θ;Q,y)的单调减少而收敛到最小值,则结束大循环,得到了最优网络模型参数θ*。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010416376.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top