[发明专利]一种基于特权知识蒸馏的四足机器人运动规划方法在审
申请号: | 202211679454.7 | 申请日: | 2022-12-26 |
公开(公告)号: | CN116203945A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 郭斌;李梦媛;刘思聪;徐若楠;刘佳琪;於志文 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘涛 |
地址: | 71007*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特权 知识 蒸馏 机器人 运动 规划 方法 | ||
1.一种基于特权知识蒸馏的四足机器人运动规划方法,其特征在于,包括以下步骤:
步骤1:搭建仿真环境;
利用PyBullet物理引擎构建仿真环境,包括多种地形建模以及机器人动力学建模;使用域随机化方法随机机器人动力学参数,包括机体质量、关节质量、摩擦、惯性参数,并增加额外力和额外扭矩作为扰动,增强模型抗干扰能力;
步骤2:设计教师网络的状态空间、动作空间及奖励函数;
状态空间:状态定义为St:=ot,xt,其中ot是机器人的观察向量,xt是特权信息;ot包含命令、方向、基本扭曲、关节位置、速度、φi向量、fi向量和机械脚的位置;在编码腿部相位时,使用cos(φ),sin(φ)取代φ,获得平滑且唯一的角度表示;xt包含直接从物理引擎接收到的无噪声信息,包括与地形相互作用相关的信息;
动作空间:动作定义为四个足端的目标位置残差,目标位置残差与先验步态生成器得到的先验足端位置相加,得到四足机器人的目标足端位置;
奖励空间:包括指令跟踪、稳定性和碰撞三方面;指令跟踪包括线速度奖励、偏航角奖励、垂直速度惩罚;稳定性包括动作平滑度奖励、位姿惩罚、足端溜滑惩罚、关节约束惩罚、扭矩惩罚、俯仰角惩罚;碰撞包括机身碰撞与足端碰撞两部分;
步骤3:训练基于PPO算法的强化学习教师网络;
在每个训练轮次中,从平地、台阶、离散台阶、斜坡、丘陵、楼梯六类地形中随机选择一种地形进行训练;特权教师网络输入为本体感知与特权信息,输出为足端位置残差,通过与先验足端位置相加,得到目标足端位置;先验步态生成器设计如下:
式中,φi表示当前相位,h表示最大抬脚高度,k=2(φi-π)/π表示抬腿阶段;
在得到目标足端位置后,用逆动力学从目标足端位置计算出12关节目标位置,再计算出12关节扭矩,最后由PD控制器控制机器人运动;当机器人摔倒或到达最大轮次长度,该轮次终止;地形环境在每轮次结束后均会随机更新;
收集仿真环境中四足机器人的当前状态、动作、期望状态、奖励结果以及终止判定条件,保存到数据集D中,当收集完成指定轮次的样本后,进行网络更新;网络更新完成后,重置环境并重复执行上述训练操作,直到达到训练轮次上限,保存教师网络;
步骤4:学生网络设计;
学生网络使用TCN编码器,其输入为H={ht-1,...,ht-N-1},N为历史长度;编码器是完全卷积的,由三个扩展的因果卷积层组成,与降低维数的跨步卷积层交错;
步骤5:学生网络训练;
在每个轮次,同时从教师网络和学生网络进行观测和动作采样;学生网络是通过监督学习来训练的,通过模仿教师行为来更新参数,损失函数被定义为:
式中,ot表示本体感知,xt表示特权信息,H表示本体感知历史序列,at表示输出动作,lt表示潜在特征,变量上方加横线表示由教师网络生成的目标值。
2.根据权利要求1所述的一种基于特权知识蒸馏的四足机器人运动规划方法,其特征在于,所述与地形相互作用相关的信息包括地形轮廓、脚部接触状态和力、摩擦系数和训练过程中施加的外部干扰力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211679454.7/1.html,转载请声明来源钻瓜专利网。