[发明专利]一种基于特权知识蒸馏的四足机器人运动规划方法在审

申请号：	202211679454.7	申请日：	2022-12-26
公开（公告）号：	CN116203945A	公开（公告）日：	2023-06-02
发明（设计）人：	郭斌;李梦媛;刘思聪;徐若楠;刘佳琪;於志文	申请（专利权）人：	西北工业大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	西安凯多思知识产权代理事务所(普通合伙) 61290	代理人：	刘涛
地址：	71007***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于特权知识蒸馏机器人运动规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于特权知识蒸馏的四足机器人运动规划方法，其特征在于，包括以下步骤：

步骤1：搭建仿真环境；

利用PyBullet物理引擎构建仿真环境，包括多种地形建模以及机器人动力学建模；使用域随机化方法随机机器人动力学参数，包括机体质量、关节质量、摩擦、惯性参数，并增加额外力和额外扭矩作为扰动，增强模型抗干扰能力；

步骤2：设计教师网络的状态空间、动作空间及奖励函数；

状态空间：状态定义为S_t:＝o_t,x_t，其中o_t是机器人的观察向量，x_t是特权信息；o_t包含命令、方向、基本扭曲、关节位置、速度、φ_i向量、f_i向量和机械脚的位置；在编码腿部相位时，使用cos(φ),sin(φ)取代φ，获得平滑且唯一的角度表示；x_t包含直接从物理引擎接收到的无噪声信息，包括与地形相互作用相关的信息；

动作空间：动作定义为四个足端的目标位置残差，目标位置残差与先验步态生成器得到的先验足端位置相加，得到四足机器人的目标足端位置；

奖励空间：包括指令跟踪、稳定性和碰撞三方面；指令跟踪包括线速度奖励、偏航角奖励、垂直速度惩罚；稳定性包括动作平滑度奖励、位姿惩罚、足端溜滑惩罚、关节约束惩罚、扭矩惩罚、俯仰角惩罚；碰撞包括机身碰撞与足端碰撞两部分；

步骤3：训练基于PPO算法的强化学习教师网络；

在每个训练轮次中，从平地、台阶、离散台阶、斜坡、丘陵、楼梯六类地形中随机选择一种地形进行训练；特权教师网络输入为本体感知与特权信息，输出为足端位置残差，通过与先验足端位置相加，得到目标足端位置；先验步态生成器设计如下：

式中，φ_i表示当前相位，h表示最大抬脚高度，k＝2(φ_i-π)/π表示抬腿阶段；

在得到目标足端位置后，用逆动力学从目标足端位置计算出12关节目标位置，再计算出12关节扭矩，最后由PD控制器控制机器人运动；当机器人摔倒或到达最大轮次长度，该轮次终止；地形环境在每轮次结束后均会随机更新；

收集仿真环境中四足机器人的当前状态、动作、期望状态、奖励结果以及终止判定条件，保存到数据集D中，当收集完成指定轮次的样本后，进行网络更新；网络更新完成后，重置环境并重复执行上述训练操作，直到达到训练轮次上限，保存教师网络；

步骤4：学生网络设计；

学生网络使用TCN编码器，其输入为H＝{h_t-1,...,h_t-N-1}，N为历史长度；编码器是完全卷积的，由三个扩展的因果卷积层组成，与降低维数的跨步卷积层交错；

步骤5：学生网络训练；

在每个轮次，同时从教师网络和学生网络进行观测和动作采样；学生网络是通过监督学习来训练的，通过模仿教师行为来更新参数，损失函数被定义为：

式中，o_t表示本体感知，x_t表示特权信息，H表示本体感知历史序列，a_t表示输出动作，l_t表示潜在特征，变量上方加横线表示由教师网络生成的目标值。

2.根据权利要求1所述的一种基于特权知识蒸馏的四足机器人运动规划方法，其特征在于，所述与地形相互作用相关的信息包括地形轮廓、脚部接触状态和力、摩擦系数和训练过程中施加的外部干扰力。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211679454.7/1.html，转载请声明来源钻瓜专利网。

上一篇：双光频梳测距系统、方法、控制设备及存储介质
下一篇：一种直管开料管端加工一体机

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于特权知识蒸馏的四足机器人运动规划方法在审

专利文献下载