[发明专利]基于动态模型与事后经验回放的多目标机器人控制方法有效

申请号：	202011281615.8	申请日：	2020-11-16
公开（公告）号：	CN112518742B	公开（公告）日：	2022-01-25
发明（设计）人：	李秀;杨瑞;吕加飞;杨宇	申请（专利权）人：	清华大学深圳国际研究生院
主分类号：	B25J9/16	分类号：	B25J9/16;B25J13/00;G06F30/27;G06N7/00;G06F113/28
代理公司：	深圳新创友知识产权代理有限公司 44223	代理人：	江耀纯
地址：	518055 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于动态模型事后经验回放多目标机器人控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于动态模型与事后经验回放的多目标机器人控制方法，其特征在于：具体方法如下：

S1、设定多目标强化学习参数；所述的多目标强化学习参数具体如下：

将强化学习表示为马尔可夫决策过程MDP，MDP包含了五元组(S，A，R，P，γ)，其中S代表状态空间，A代表动作空间，R代表奖励函数，P代表状态转移概率矩阵，γ代表折扣因子；智能体每个时刻观测到状态s_t，根据状态执行动作α_t，环境接收到动作后转移到下一个状态s_t+1并反馈奖励r_t，强化学习优化的目标是最大化累积奖励值智能体根据策略π(α_t|s_t)选择动作；

S2、在多目标强化学习的参数设定下，得到确定性策略梯度算法Actor和Critic的损失函数L_actor和L_critic；具体如下：

确定性策略梯度算法DDPG基于Actor Gritic架构，Gritic部分对状态动作进行评估，Actor部分即为选择动作的策略，在多目标强化学习的设定下，Actor、Gritic的损失函数L_actor，L_critic分别为：

where Q_target＝r_t+γQ(s_t+1，π(s_t+1，g)，g)

其中g代表目标空间中的一个目标；

S3、建立动态模型，基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练；包括：

首先根据交互数据训练一个环境的动态模型来最小化下一状态估计误差：

然后从某个状态动作对出发，利用策略与动态模型进行交互，产生新的数据其中状态s由M计算，奖励r由奖励函数计算，使用单步值函数估计和多步值函数展开的加权平均，带权的具有以下形式：

其中α是可以调节的参数；

S4、利用事后经验回放技术，在多目标强化学习中，将失败经历的目标替换为实际完成的目标。

2.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法，其特征在于：动作值函数其中Q(s_t，α_t)代表在状态s_t执行动作α_t后的期望累积奖励。

3.根据权利要求2所述的一种基于动态模型与事后经验回放的多目标机器人控制方法，其特征在于：多目标强化学习中，智能体的策略和奖励函数都受到目标g的调节，奖励函数、值函数、策略具有以下表示：r(s_t，α_t，g)，Q(s_t，α_t，g)，π(s_t，g)；使用成功与否来设置奖励函数，即完成目标奖励为0，未完成目标奖励为-1，用φ表示状态到目标的映射，∈表示设定达到目标的阈值，奖励函数表示为

4.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法，其特征在于：当α接近0时，接近于单步的展开，此时是没有模型误差的但是学习速度较慢，当α增加的时候，包含更多的值函数展开信息，但同时带来更多偏差，因此α起到权衡基于模型的多步信息和模型偏差的作用。

5.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法，其特征在于：通过调节α和步数n加速智能体的训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院，未经清华大学深圳国际研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011281615.8/1.html，转载请声明来源钻瓜专利网。

上一篇：基于密码卡的数据处理方法、电子设备及存储介质
下一篇：一种麻醉科室用麻醉废气抽除装置

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于动态模型与事后经验回放的多目标机器人控制方法有效

专利文献下载