[发明专利]基于优先经验回放机制的机器人路径规划方法及系统在审
申请号: | 202211199553.5 | 申请日: | 2022-09-29 |
公开(公告)号: | CN115509233A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 王朋;程诺;倪翠 | 申请(专利权)人: | 山东交通学院 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250300 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 优先 经验 回放 机制 机器人 路径 规划 方法 系统 | ||
1.基于优先经验回放机制的机器人路径规划方法,其特征是,包括:
获取路径规划机器人当前状态和目标位置;将路径规划机器人当前状态和目标位置,输入到训练后的深度确定性策略梯度网络,得到机器人动作;路径规划机器人根据得到的机器人动作,完成机器人的路径规划;
其中,训练后的深度确定性策略梯度网络,在训练的过程中,机器人生成的经验存储在经验池中,存储方式采用经验样本优先级序列进行存储;
其中,经验样本优先级序列,其构建过程为:
计算时间差分误差的优先级、当前Actor网络损失函数的优先级和立即奖励的优先级;利用信息熵确定三者的权重,采用加权求和的方式计算经验样本优先级,构建经验样本优先级序列;
在经验采样时,判断奖励是否大于零,如果是,就上调经验样本的优先级,如果否,就保持经验样本的优先级不变;按照优先级由高到低的顺序对经验进行采样,进而更新网络参数。
2.如权利要求1所述的基于优先经验回放机制的机器人路径规划方法,其特征是,所述按照优先级由高到低的顺序对经验进行采样,进而更新网络参数,之后还包括:
在经验被选择参与训练之后,在下一轮的训练过程中,将已经参与训练的经验的优先级进行衰减,判断衰减后的所有优先级的平均值是否小于设定阈值,如果是,就上调经验样本的优先级,如果否,就继续进行优先级衰减,直至降低到优先级序列的平均值。
3.如权利要求1所述的基于优先经验回放机制的机器人路径规划方法,其特征是,所述训练后的深度确定性策略梯度网络,在训练的过程中,机器人与环境的交互过程如下:
在每一时刻t,机器人的当前Actor网络根据环境状态st得到动作at,作用于环境获得立即奖励rt和下一时刻环境状态st+1,当前Critic网络根据环境状态st和动作at得到Q值Q(st,at),对动作at进行评价;
从经验池采样第i个经验[si,ai,ri,si+1],当前Actor网络根据Q值Q(st,at)调整动作策略,当前Actor网络的损失函数为▽aQ(si,ai|θQ);Q表示当前Critic网络产生的Q值,si表示从经验池采样的状态,ai表示从经验池中采样的动作,θQ表示当前Actor网络的参数,Q(st,at)表示状态st和动作at的价值;
目标Actor网络根据下一时刻环境状态st+1得到估计动作a';
目标Critic网络根据下一时刻环境状态st+1和估计动作a'得到Q'值Q'(st+1,a');Q'(st+1,a')表示状态st+1和动作a'的价值;
计算Q值与Q'值之间的差值,得到时间差分误差TD-error。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东交通学院,未经山东交通学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211199553.5/1.html,转载请声明来源钻瓜专利网。