[发明专利]一种斜坡条件下双足机器人步态稳定控制方法在审
申请号: | 202010602214.1 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111730595A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 冯春;郭魂;江炜;周叙荣 | 申请(专利权)人: | 常州工学院 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;B62D57/032 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 顾翰林 |
地址: | 213032 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 斜坡 条件下 机器人 步态 稳定 控制 方法 | ||
1.一种斜坡条件下双足机器人步态稳定控制方法,其特征在于:包括建立仿人双足机器人模型、预训练控制参数和双足机器人步行运动稳定性;
所述仿人双足机器人模型采用一种简化的6自由度连杆模型,足部采用平面足底结构形式;所述预训练控制参数利用改进的DQN网络结构的深度强化学习进行控制器训练;所述双足机器人步行运动的稳定性是通过训练的控制器实现。
2.根据权利要求1所述的斜坡条件下双足机器人步态稳定控制方法,其特征在于:采用3D建模软件建立双足机器人模型并导入到matlab仿真平台预训练基于改进DQN的深度强化学习网络,采用经验回放机制和目标Q值网络两种方法,实现基于改进DQN的深度强化学习网络在训练过程中的收敛。
3.根据权利要求1所述的斜坡条件下双足机器人步态稳定控制方法,其特征在于:采用策略梯度算法,保证在连续的动作空间根据所学习到的策略随机筛选动作;针对策略梯度算法只输出一个动作值。
4.根据权利要求1所述的斜坡条件下双足机器人步态稳定控制方法,其特征在于:对于策略随机筛选动作,∑π(a|s)=1策略输出的是动作的概率,使用正态分布对动作进行采样选择;对于确定性策略,π(s)S→A策略输出。
5.根据权利要求1所述的斜坡条件下双足机器人步态稳定控制方法,其特征在于:操作-评论的算法会根据近似评论的价值估算来更新策略;DDPG算法使用确定性策略梯度作为更新策略,并给出修正算法,具体步骤如下:
步骤1:采用简化的双足机器人连杆模型,利用三维建模软件绘制,训练前将该CAD模型导入到Matlab内;双足机器人结构包括腰部,大腿、小腿及双足,连杆的尺寸的单位为m;选择的材料分为两种,腰部、大腿、小腿选用泡沫塑料,密度为0.5g/CM3,足部选用工程塑料;密度为1.0g/CM3;整个双足机器人的重心保持在腰部的中心,且双足机器人模型的运动主要包括6个关节,即髋关节、膝关节和踝关节,作为旋转关节,各关节变量的作用范围分别为[-pi/4,pi/4],[0.1,pi],[-pi/4,pi/4];在模型建立后,确定合适的接触刚度、阻尼、静摩擦和动摩擦的仿真参数;
步骤2:使用改进的DQN算法进行智能体训练实现双足机器人稳定步态控制;对应的智能体是深度确定性策略梯度的智能体,计算最大化长期奖励的最佳策略;
具体包含以下关键步骤:
步骤2.1:操作与评论函数;
估计策略和价值函数,智能体维护4个函数近似器:
操作μ(s):操作进行观察s并输出相应的动作;
目标操作μ′(s):根据最新的操作参数值定期更新目标操作;
双Q值评论Q(s,a):评论将观察值s和操作a分别作为输入和对长期奖励相应期望的输出;
双目标评论Q′(s,a):智能体会根据最新的评论参数值定时更新目标评论;
Q(s,a)和Q′(s,a)二者具有相同的结构和参数化,并且μ(s)和μ′(s)二者具有相同的结构和参数化,将训练好的最佳策略存储在操作μ(s)中;
步骤2.2:智能体创建;创建智能体具体操作步骤包括:
a)创建一个操作表示对象;
b)创建评论表示对象;
c)指定智能体选项;
d)函数创建智能体;
步骤3:创建智能体后,进行智能体训练;该智能体使用以下训练算法,在每个时间步长更新操作和评论模型;
用随机参数值θQ初始化评论Q(s,a),并使用相同的随机参数值θQ′=θQ初始化目标评论;
用随机参数值θμ初始化操作μ(s),并用相同的参数值θμ′=θμ初始化目标操作;
对于每个训练时间步长:
1.对于当前观测值s,选择操作a=μ(s)+n,其中n是来自噪声模型的随机噪声;
2.执行动作a,观察奖励r和下一个观察s′,假定t时刻步长提供的观察奖励函数为rt,此奖励函数通过为正向前进速度提供正向奖励来激励智能体前进,还通过在每个时间步长提供恒定的奖励来鼓励智能体避免情节终止,奖励函数中的其他参数是惩罚,对横向和纵向平移的实质性变化以及过度控制的使用,观察奖励函数如下:
vx是机器人在X方向(朝向目标)的平移速度;
y是机器人相对于前进方向的横向平移位移;
是机器人质心的垂直平移与前进方向垂直投影位移标准化;
是来自上一个时间步的关节i的扭矩;
Ts是环境的采样时间;
Tf是环境的最终模拟时间;
3.将经验(s,a,r,s′)存储在经验缓冲区中;
4.从经验缓冲区中随机抽取M个小批量的经验(si,ai,ri,s′i);
5.如果s′i是终端状态,则将价值函数目标yi设置为r,否则将其设置为:
其中,γ为折扣系数,价值函数目标是经验奖励ri和评论网络对应未来奖励折扣的最小值二者之和,为计算累积奖励,智能体首先通过将下一个观察结果s′i从采样的经验传递到目标操作来计算下一个动作;然后,智能体添加噪声ε到已经计算的动作,并且将动作以噪声的上下限进行分割;智能体通过将下一个动作传递给目标评论来找到累积奖励;
6.通过最小化所有采样经验中的损失L更新评论参数:
7.使用以下样本策略梯度更新操作参数,以最大化预期权值奖励;
其中
其中a=μ(si|θμ),Gai为最小评论输出对应由操作网络计算动作的梯度,而Gμi是操作输出对应操作参数的梯度,两个梯度均由观测值si估计;
8.根据目标更新方法,更新目标操作和评论;智能体使用目标平滑化,并在每个时间步长更新目标操作和评论;此算法中的操作和评论的更新使用基本随机梯度下降的更新方式;在每一个时间步长均会利用平滑因子t更新目标,对应的评论和操作参数分别为
θμ′=tθμ+(1-t)θμ′。
6.根据权利要求5所述的斜坡条件下双足机器人步态稳定控制方法,其特征在于:还包括步骤4:
根据控制参数确定机器人的控制策略进行步态的控制,利用Matlab进行仿真,仿真结果表明在10s内连续向前行走到终点,整个过程均非常稳定基本未出现跌倒情况,选取其中的一次稳定控制仿真实验,通过该稳定性也的力矩图像的曲线得到验证,由曲线可知各关节的力矩在(-5,5)N·m范围内周期变化,稳定的力矩输出能够保证双足机器人在步行中的稳定性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州工学院,未经常州工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010602214.1/1.html,转载请声明来源钻瓜专利网。