[发明专利]基于策略梯度学习法的模型参数修正方法及修正器有效
申请号: | 201610841970.3 | 申请日: | 2016-09-22 |
公开(公告)号: | CN106292288B | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 陈启军;刘成菊;宁静 | 申请(专利权)人: | 同济大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 上海科盛知识产权代理有限公司31225 | 代理人: | 赵志远 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于策略梯度学习法的模型参数修正方法及修正器,该模型参数修正方法包括以下步骤S1选择倒立摆输入参数和机器人躯干姿态参数为修正量,建立修正量的模型参数修正方程;S2选择机器人质心跟踪的误差以及机器人姿态相对于身体直立状态的误差作为机器人对当前环境的适应度指标,建立适应度评价函数;S3根据适应度评价函数,利用策略梯度学习法优化模型参数修正方程中的增益系数,将优化后的增益参数代入模型参数修正方程得到修正量。与现有技术相比,本发明策略方程收敛快速,机器人能在未知的扰动下快速、实时地调节步态和身体姿态,提高了机器人行走的自适应性和鲁棒性。 | ||
搜索关键词: | 基于 策略 梯度 学习 模型 参数 修正 方法 及其 应用 | ||
【主权项】:
基于策略梯度学习法的模型参数修正方法,其特征在于,包括以下步骤:S1:选择倒立摆输入参数和机器人躯干姿态参数为修正量,建立修正量的模型参数修正方程,所述模型参数修正方程内包含待优化的增益系数,S2:选择机器人质心跟踪的误差以及机器人身体姿态相对于直立状态的误差作为机器人对当前环境的适应度指标,建立适应度评价函数,S3:根据适应度评价函数,利用策略梯度学习法优化模型参数修正方程中的增益系数,将优化后的增益参数代入模型参数修正方程得到修正量,步骤S1中,选择为修正量的倒立摆输入参数包括x轴向步伐大小和y轴向步伐大小,选择为修正量的机器人躯干姿态参数包括x轴向躯干角和y轴向躯干角,所述模型参数修正方程具体为:Δsx=K1·1NΣi=1N(xf,x,i-xe,x,i)+K3·1NΣi=1N(θB,y,i-θB,y,iref)]]>Δsy=K2·1NΣi=1N(xf,y,i-xe,y,i)+K4·1NΣi=1N(θB,x,i-θB,x,iref)]]>ΔθB,x=K5·1NΣi=1N(pLHip,z,i-pRHip,z,i)]]>ΔθB,y=K6·1NΣi=1N(pSuppFoot,x,i-pHead,x,i)]]>其中,下标x、y、z分别表示x、y、z轴向,s为步伐大小,Δs为步伐大小的修正量,θB为躯干角,ΔθB为躯干角的修正量,N为一个单脚支撑阶段的插值的步数,下标i表示单脚支撑阶段中第i个步数,xf为卡尔曼滤波后质心的估计值,xe为质心的理想值,为躯干直立时的倾斜角,pRHip和pLHip分别为机器人右腿和左腿髋关节的位移,pHead和pSuppFoot分别为机器人头部关节和支撑脚的位移,K1,...,K6为增益参数;所述适应度评价函数F(K)具体为:F(K‾)=αx(|Δsx|+|Δx‾x|)+αy(|Δsy|+|Δx‾y|)+βx(|ΔθB,x|+|Δθ‾B,x|)+βy(|ΔθB,y|+|Δθ‾B,y|)]]>Δx‾x=1NΣi=1N(xf,x,i-xe,x,i)]]>Δx‾y=1NΣi=1N(xf,y,i-xe,y,i)]]>Δθ‾B,x=1NΣi=1N(θB,x,i-θB,x,iref)]]>Δθ‾B,y=1NΣi=1N(θB,y,i-θB,y,iref)]]>其中,K={K1,...,K6}表示增益参数集,αx、αy、βx和βy为权重因子,且满足αx+αy=1,βx+βy=1,适应度评价函数的值越小,表示机器人在增益参数集下的适应度越高;所述策略梯度学习法的具体步骤为:301:在第k次迭代中,对于上一次迭代获得的增益参数集Kk‑1,并在Kk‑1附近随机生成n个策略,得到的策略集用mKk‑1(m=1,...,n)表示,策略的个数n与搜索空间成正比,策略集的生成公式如下:mKk‑1=Kk‑1+mρ其中,mρ(m=1,...,n)表示扰动集合,扰动集合中每个扰动ρm在集合{‑em,0,+em}中随机选取,em表示对应ρm的扰动增益参量,302:根据扰动ρm的‑em,0,+em取值情况将mKk‑1对应分成三组:G0和将mKk‑1代入适应度评价函数,得到每个分组对应的平均值:和303:计算近似的梯度值▽Kk‑1,若且▽Kk‑1=0,否则304:对▽Kk‑1进行正交化处理,乘一个固定的步长因子η得到梯度值从策略集Kk‑1减去梯度值得到本次迭代的策略集Kk,并利用Kk进行下一次的迭代,305:当迭代次数达到预设值Niter时,迭代结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610841970.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种伸缩吊灯
- 下一篇:一种灯具悬挂安装结构