[发明专利]一种基于特权知识蒸馏的四足机器人运动规划方法在审
申请号: | 202211679454.7 | 申请日: | 2022-12-26 |
公开(公告)号: | CN116203945A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 郭斌;李梦媛;刘思聪;徐若楠;刘佳琪;於志文 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘涛 |
地址: | 71007*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特权 知识 蒸馏 机器人 运动 规划 方法 | ||
本发明公开了一种基于特权知识蒸馏的四足机器人运动规划方法,首先在PyBullet中构建仿真环境,包括四足机器人动力学建模与复杂地形建模;之后分两阶段分别训练具有特权信息的教师网络与仅利用本体感知的学生网络;对于教师网络,基于PPO算法设计四足机器人的状态更新网络、动作执行网络以及奖励函数等,除了本体感知,还需输入地形信息、接触状态等特权信息,输出足端位置残差,并结合先验步态计算足端目标位置,对机器人进行控制;对于学生网络,使用能够容纳长历史的TCN编码器,通过模仿教师行为监督训练,学生网络能够从历史本体感知中推断出地形信息进行决策。本发明使四足机器人能够在真实环境中仅利用本体感知快速稳定的穿越多种非结构化复杂地形。
技术领域
本发明属于机器人技术领域,具体涉及一种四足机器人运动规划方法。
背景技术
长期以来,轮式机器人由于成本低、运动效率高、移动速度快等优点,受到各行各业的青睐,在送快递、送餐等场景中得到了很多应用。然而,轮式机器人只能在平坦路面上移动,但有些任务场景需要机器人具备在复杂崎岖路况中运动的能力。四足机器人对非结构化复杂地形具有更强的适应性和更小的地形破坏性,其在救援救灾、物资运输等非结构化场景中具有良好的应用前景。
当前四足机器人的设计和开发都是以传统仿生机器人学理论为基础,其主要特点是控制方法依赖机器人的动力学模型、机器人的步态模仿四足生物的运动步态、以人操控为主导的运动模式等。但此类方法需要对机器人运动学和动力学精确地建模分析,设计四足机器人的敏捷运动需要大量的专业知识和繁琐的手动调参。
近年来,随着深度学习技术日趋成熟,结合深度神经网络的强化学习方法突破了连续高维空间计算量的限制,在诸多领域中取得了优于传统方法的效果。深度强化学习的快速发展,为开发具有人类感知、规划和控制的机器人带来了希望。在四足机器人领域,以深度强化学习为代表的人工智能技术能够突破传统机器人学理论的限制,避免了传统的运动控制需要精确的动力学和运动学建模、机电方面专业的知识以及复杂繁琐的手动调优等问题,让四足机器人学习到最优的控制策略。然而,由于适应不同非结构地形(如丘陵、斜坡、楼梯等)所需的步态差异大,训练一个能适应所有地形的模型难。另外,由于在真实环境中缺乏地形、接触状态等信息,仅利用本体感知训练的模型表现不佳。
发明内容
为了克服现有技术的不足,本发明提供了一种基于特权知识蒸馏的四足机器人运动规划方法,首先在PyBullet中构建仿真环境,包括四足机器人动力学建模与复杂地形建模;之后分两阶段分别训练具有特权信息的教师网络与仅利用本体感知的学生网络;对于教师网络,基于PPO算法设计四足机器人的状态更新网络、动作执行网络以及奖励函数等,除了本体感知,还需输入地形信息、接触状态等特权信息,输出足端位置残差,并结合先验步态计算足端目标位置,对机器人进行控制;对于学生网络,使用能够容纳长历史的TCN编码器,通过模仿教师行为监督训练,学生网络能够从历史本体感知中推断出地形信息进行决策。本发明使四足机器人能够在真实环境中仅利用本体感知快速稳定的穿越多种非结构化复杂地形。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:搭建仿真环境;
利用PyBullet物理引擎构建仿真环境,包括多种地形建模以及机器人动力学建模;使用域随机化方法随机机器人动力学参数,包括机体质量、关节质量、摩擦、惯性参数,并增加额外力和额外扭矩作为扰动,增强模型抗干扰能力;
步骤2:设计教师网络的状态空间、动作空间及奖励函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211679454.7/2.html,转载请声明来源钻瓜专利网。