[发明专利]基于动态模型与事后经验回放的多目标机器人控制方法有效
申请号: | 202011281615.8 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112518742B | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 李秀;杨瑞;吕加飞;杨宇 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;B25J13/00;G06F30/27;G06N7/00;G06F113/28 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 模型 事后 经验 回放 多目标 机器人 控制 方法 | ||
1.一种基于动态模型与事后经验回放的多目标机器人控制方法,其特征在于:具体方法如下:
S1、设定多目标强化学习参数;所述的多目标强化学习参数具体如下:
将强化学习表示为马尔可夫决策过程MDP,MDP包含了五元组(S,A,R,P,γ),其中S代表状态空间,A代表动作空间,R代表奖励函数,P代表状态转移概率矩阵,γ代表折扣因子;智能体每个时刻观测到状态st,根据状态执行动作αt,环境接收到动作后转移到下一个状态st+1并反馈奖励rt,强化学习优化的目标是最大化累积奖励值智能体根据策略π(αt|st)选择动作;
S2、在多目标强化学习的参数设定下,得到确定性策略梯度算法Actor和Critic的损失函数Lactor和Lcritic;具体如下:
确定性策略梯度算法DDPG基于Actor Gritic架构,Gritic部分对状态动作进行评估,Actor部分即为选择动作的策略,在多目标强化学习的设定下,Actor、Gritic的损失函数Lactor,Lcritic分别为:
where Qtarget=rt+γQ(st+1,π(st+1,g),g)
其中g代表目标空间中的一个目标;
S3、建立动态模型,基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练;包括:
首先根据交互数据训练一个环境的动态模型来最小化下一状态估计误差:
然后从某个状态动作对出发,利用策略与动态模型进行交互,产生新的数据其中状态s由M计算,奖励r由奖励函数计算,使用单步值函数估计和多步值函数展开的加权平均,带权的具有以下形式:
其中α是可以调节的参数;
S4、利用事后经验回放技术,在多目标强化学习中,将失败经历的目标替换为实际完成的目标。
2.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法,其特征在于:动作值函数其中Q(st,αt)代表在状态st执行动作αt后的期望累积奖励。
3.根据权利要求2所述的一种基于动态模型与事后经验回放的多目标机器人控制方法,其特征在于:多目标强化学习中,智能体的策略和奖励函数都受到目标g的调节,奖励函数、值函数、策略具有以下表示:r(st,αt,g),Q(st,αt,g),π(st,g);使用成功与否来设置奖励函数,即完成目标奖励为0,未完成目标奖励为-1,用φ表示状态到目标的映射,∈表示设定达到目标的阈值,奖励函数表示为
4.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法,其特征在于:当α接近0时,接近于单步的展开,此时是没有模型误差的但是学习速度较慢,当α增加的时候,包含更多的值函数展开信息,但同时带来更多偏差,因此α起到权衡基于模型的多步信息和模型偏差的作用。
5.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法,其特征在于:通过调节α和步数n加速智能体的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011281615.8/1.html,转载请声明来源钻瓜专利网。