[发明专利]基于动态模型与事后经验回放的多目标机器人控制方法有效

申请号：	202011281615.8	申请日：	2020-11-16
公开（公告）号：	CN112518742B	公开（公告）日：	2022-01-25
发明（设计）人：	李秀;杨瑞;吕加飞;杨宇	申请（专利权）人：	清华大学深圳国际研究生院
主分类号：	B25J9/16	分类号：	B25J9/16;B25J13/00;G06F30/27;G06N7/00;G06F113/28
代理公司：	深圳新创友知识产权代理有限公司 44223	代理人：	江耀纯
地址：	518055 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于动态模型事后经验回放多目标机器人控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于动态模型与事后经验回放的多目标机器人控制方法，本发明能够学习到完成整个目标空间的策略，在泛化性上比现有方法更有优势；本发明通过基于模型的值函数估计和事后经验回放提高了多目标强化学习中的数据利用效率；相比其他离线值函数估计方法没有离线偏差，虽然存在模型误差，但是本发明通过单步与多步值函数估计的加权求和权衡了模型误差和学习速度，具有更好的表现。

技术领域

本发明涉及机器人控制技术领域，尤其涉及一种基于动态模型与事后经验回放的多目标机器人控制方法。

背景技术

强化学习：机器学习中的一类方法，主要由智能体和环境两部分组成。智能体根据当前的状态按照一定的策略(policy)执行动作并作用在环境中，环境接收到动作后会返回新的状态及一个奖励(reward)。

深度强化学习：将深度神经网络和强化学习进行了结合，使得强化学习能够有效解决大状态空间、甚至连续状态空间的复杂问题，机器人控制就属于连续状态空间控制问题。

多目标强化学习：通常的强化学习是完成一个特定目标，但是在机器人控制等问题中常常存在大量目标，比如移动机械臂到空间中的任意位置，我们希望智能体能够到达空间中的任意目标，于是引入了多目标强化学习。

离线策略算法：强化学习中一类采集数据的动作策略和更新的目标策略不相同的方法，这一类方法通常需要使用经验回放技术，对数据利用效率高于在线策略算法，但是在多目标连续控制问题中，数据利用效率依然很低；

经验回放：强化学习中离线策略算法的使用的一个技巧，使用一个经验池来储存智能体与环境交互产生的数据，训练策略时从经验池中小批次采样来训练策略网络。

事后经验回放：针对多目标强化学习的方法，通过修改经验池中数据的期望目标为实际完成的目标，极大的提高了对失败数据的利用效率。

离线策略偏差：当直接在离线策略算法中使用多步值函数估计的时候，由于行为策略和目标策略存在差异，导致多步的经验回放会带来离线策略偏差的累积，可能会严重影响智能体的策略学习。

基于动态模型的方法：强化学习中，已知环境的动态模型或根据数据学习出环境的动态模型的一类方法。我们可以与动态模型进行交互，从而减小与环境的交互次数。基于动态模型的方法存在的问题是，当动态模型对真实环境拟合不足时，就会存在模型误差，并且随着交互步数累积，也可能对智能体的训练带来危害。

多步方法：本专利中提到的多步方法是指对值函数做多步展开，利用多步的累积折扣奖励对值函数做估计的方法，该方式相比单步方法偏差更小，通常收敛速度更快。

现有技术存在以下不足：

(1)现有技术通常对于完成一个特定任务需要训练一个策略网络，泛化性不强，而我们的多目标强化学习技术能同时训练大量目标，一个模型就能够完成一定目标空间中的所有任务；

(2)现有技术没有利用到事后经验回放的信息，往往无法从失败的数据中学习，而我们的技术利用了事后经验回放来提高失败数据的利用，加速了机器人任务的训练；

(3)现有技术没有利用到基于模型的值函数展开方法，往往使用单步的时序差分方法学习，而我们的技术能够加速值函数的学习和智能体的训练；

(4)现有技术中的多步值函数估计方法在离线策略的情况下存在较大离线偏差，而本专利的方法由于使用了基于模型的值函数展开，不存在离线偏差，但是存在一定模型误差。

发明内容

本发明目的就是为了弥补已有技术中多目标强化学习机器人控制中数据利用效率低，需要海量数据训练的问题缺陷，提供一种基于动态模型与事后经验回放的多目标机器人控制方法，通过结合基于动态模型的多步值函数展开与事后经验回放技术起到了显著提高数据利用效率的效果。

本发明是通过以下技术方案实现的：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院，未经清华大学深圳国际研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011281615.8/2.html，转载请声明来源钻瓜专利网。

上一篇：基于密码卡的数据处理方法、电子设备及存储介质
下一篇：一种麻醉科室用麻醉废气抽除装置

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于动态模型与事后经验回放的多目标机器人控制方法有效

专利文献下载