[发明专利]基于模型相关强化学习的仿人机器人步态控制方法有效
申请号: | 201610363756.1 | 申请日: | 2016-05-26 |
公开(公告)号: | CN106094813B | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 毕盛;陈奇石;董敏;闵华清 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于模型相关强化学习的仿人机器人步态控制方法,包括步骤:1)为仿人机器人行走前后稳定控制任务定义强化学习框架;2)使用基于稀疏在线高斯过程的模型相关强化学习方法对仿人机器人进行步态控制;3)使用PID控制器对强化学习仿人机器人控制器的动作选择方法进行改进,改进操作为使用PID控制器获取强化学习控制器动作选择操作的寻优初始点。本发明使用强化学习来对仿人机器人行走过程中的步态进行控制,从而使仿人机器人的行走控制能通过与环境交互来进行自主调节,达到更好的控制效果,使仿人机器人在前后方向上保持稳定。 | ||
搜索关键词: | 基于 模型 相关 强化 学习 人机 步态 控制 方法 | ||
【主权项】:
1.基于模型相关强化学习的仿人机器人步态控制方法,其特征在于,包括以下步骤:1)为仿人机器人行走前后稳定控制任务定义强化学习框架;2)使用基于稀疏在线高斯过程的模型相关强化学习方法对仿人机器人进行步态控制;其中,所述的基于稀疏在线高斯过程的模型相关强化学习方法,主要包含以下几个步骤:2.1)使用稀疏在线高斯过程构建环境模型,该环境模型一共包含6个稀疏在线高斯过程模型,以仿人机器人的状态和动作为输入,以下一状态和立即回报值的预测为输出;2.2)对Q值函数采用批更新的方法,只有当新获取的经验数目达到200个时,才对Q值函数进行更新;2.3)使用一个基于UCB的连续动作选择方法,使用稀疏在线高斯过程的方差输出和利用环境模型对仿人机器人后继状态和立即回报值的预测,构建了一条基于UCB的动作评判函数:
其中:UCB(fs,a)=y(fs,a)+κδ(fs,a)UCB(r(t))=E(r(t))+2σ(r(t))y(fs,a)是对该点的Q值的预测均值,δ(fs,a)是对该点的Q值的预测方差,E(r(t))是立即回报值r(t)的预测均值,σ(r(t))是r(t)的预测方差;使用梯度下降法求解该函数来选择动作,并参考ε‑greedy策略的思想,以ε的概率随机选取动作;3)使用PID控制器对强化学习仿人机器人控制器的动作选择方法进行改进,改进操作为使用PID控制器获取强化学习控制器动作选择操作的寻优初始点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610363756.1/,转载请声明来源钻瓜专利网。