[发明专利]基于优先经验回放机制的机器人路径规划方法及系统在审

专利信息
申请号: 202211199553.5 申请日: 2022-09-29
公开(公告)号: CN115509233A 公开(公告)日: 2022-12-23
发明(设计)人: 王朋;程诺;倪翠 申请(专利权)人: 山东交通学院
主分类号: G05D1/02 分类号: G05D1/02
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 黄海丽
地址: 250300 *** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 优先 经验 回放 机制 机器人 路径 规划 方法 系统
【权利要求书】:

1.基于优先经验回放机制的机器人路径规划方法,其特征是,包括:

获取路径规划机器人当前状态和目标位置;将路径规划机器人当前状态和目标位置,输入到训练后的深度确定性策略梯度网络,得到机器人动作;路径规划机器人根据得到的机器人动作,完成机器人的路径规划;

其中,训练后的深度确定性策略梯度网络,在训练的过程中,机器人生成的经验存储在经验池中,存储方式采用经验样本优先级序列进行存储;

其中,经验样本优先级序列,其构建过程为:

计算时间差分误差的优先级、当前Actor网络损失函数的优先级和立即奖励的优先级;利用信息熵确定三者的权重,采用加权求和的方式计算经验样本优先级,构建经验样本优先级序列;

在经验采样时,判断奖励是否大于零,如果是,就上调经验样本的优先级,如果否,就保持经验样本的优先级不变;按照优先级由高到低的顺序对经验进行采样,进而更新网络参数。

2.如权利要求1所述的基于优先经验回放机制的机器人路径规划方法,其特征是,所述按照优先级由高到低的顺序对经验进行采样,进而更新网络参数,之后还包括:

在经验被选择参与训练之后,在下一轮的训练过程中,将已经参与训练的经验的优先级进行衰减,判断衰减后的所有优先级的平均值是否小于设定阈值,如果是,就上调经验样本的优先级,如果否,就继续进行优先级衰减,直至降低到优先级序列的平均值。

3.如权利要求1所述的基于优先经验回放机制的机器人路径规划方法,其特征是,所述训练后的深度确定性策略梯度网络,在训练的过程中,机器人与环境的交互过程如下:

在每一时刻t,机器人的当前Actor网络根据环境状态st得到动作at,作用于环境获得立即奖励rt和下一时刻环境状态st+1,当前Critic网络根据环境状态st和动作at得到Q值Q(st,at),对动作at进行评价;

从经验池采样第i个经验[si,ai,ri,si+1],当前Actor网络根据Q值Q(st,at)调整动作策略,当前Actor网络的损失函数为▽aQ(si,aiQ);Q表示当前Critic网络产生的Q值,si表示从经验池采样的状态,ai表示从经验池中采样的动作,θQ表示当前Actor网络的参数,Q(st,at)表示状态st和动作at的价值;

目标Actor网络根据下一时刻环境状态st+1得到估计动作a';

目标Critic网络根据下一时刻环境状态st+1和估计动作a'得到Q'值Q'(st+1,a');Q'(st+1,a')表示状态st+1和动作a'的价值;

计算Q值与Q'值之间的差值,得到时间差分误差TD-error。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东交通学院,未经山东交通学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211199553.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top