[发明专利]基于策略梯度学习法的模型参数修正方法及修正器有效
申请号: | 201610841970.3 | 申请日: | 2016-09-22 |
公开(公告)号: | CN106292288B | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 陈启军;刘成菊;宁静 | 申请(专利权)人: | 同济大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 上海科盛知识产权代理有限公司31225 | 代理人: | 赵志远 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 策略 梯度 学习 模型 参数 修正 方法 及其 应用 | ||
技术领域
本发明涉及机器人行走控制技术领域,尤其是涉及基于策略梯度学习法的模型参数修正方法及修正器。
背景技术
在机器人的行走问题中,为了生成的稳定步态,目前的方案大多将机器人抽象为简单的物理模型,如线性倒立摆模型(LIPM)、桌子-小车模型等,利用模型简化机器人的运动方程,并进行离线轨迹规划,此类方法中如果模型的参数是固定的,则机器人的步态是无法修改的,因而对于未知的外界扰动缺乏抑制能力。目前将学习方法应用于机器人行走的方案中,大多都是选定影响步态的关键参数,在高维度的搜索空间内直接对关键参数进行优化学习,并未将机器人进行抽象建模,因而需要进行大量的离线训练或进行长时间的在线学习,寻找局部最优解,以保证机器人行走的稳定性,这些方法使得机器人的步态是可调整的,但不适合机器人在未知环境下的实时快速调节。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供基于策略梯度学习法的模型参数修正方法及修正器,将学习的方法引入机器人倒立摆模型,设计了一种基于策略梯度学习法的模型参数修正器,间接优化步态参数,在修正器的作用下,策略方程收敛快速,机器人能在未知的扰动下快速、实时地调节步态和身体姿态,提高了行走的自适应性和鲁棒性。
本发明的目的可以通过以下技术方案来实现:
基于策略梯度学习法的模型参数修正方法包括以下步骤:
S1:选择倒立摆输入参数和机器人躯干姿态参数为修正量,建立修正量的模型参数修正方程,所述模型参数修正方程内包含待优化的增益系数;
S2:选择机器人质心跟踪的误差以及机器人身体姿态相对于直立状态的误差作为机器人对当前环境的适应度指标,建立适应度评价函数;
S3:根据适应度评价函数,利用策略梯度学习法优化模型参数修正方程中的增益系数,将优化后的增益参数代入模型参数修正方程得到下一个单脚支撑阶段的修正量。
步骤S1中,选择为修正量的倒立摆输入参数包括x轴向步伐大小和y轴向步伐大小,选择为修正量的机器人躯干姿态参数包括x轴向躯干角和y轴向躯干角,所述模型参数修正方程具体为:
其中,下标x、y、z分别表示x、y、z轴向,s为步伐大小,Δs为步伐大小的修正量,θB为躯干角,ΔθB为躯干角的修正量,N为一个单脚支撑阶段的插值的步数,下标i表示单脚支撑阶段中第i个步数,xf为卡尔曼滤波后质心的估计值,xe为质心的理想值,为躯干直立时的倾斜角,pRHip和pLHip分别为机器人右腿和左腿髋关节的位移,pHead和pSuppFoot分别为机器人头部关节和支撑脚的位移,K1,...,K6为增益参数。
所述适应度评价函数F(K)具体为:
其中,K={K1,...,K6}表示增益参数集,αx、αy、βx和βy为权重因子,且满足αx+αy=1,βx+βy=1,适应度评价函数的值越小,表示机器人在增益参数集下的适应度越高。
所述策略梯度学习法的具体步骤为:
301:在第k次迭代中,对于上一次迭代获得的增益参数集Kk-1,计算F(K)在Kk-1内每个参数值处的偏导,并在Kk-1附近随机生成n个策略,得到的策略集用mKk-1(m=1,...,n)表示,策略的个数n与搜索空间成正比,策略集的生成公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610841970.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种伸缩吊灯
- 下一篇:一种灯具悬挂安装结构