[发明专利]基于神经振荡器的机器人节律运动控制方法及系统在审
申请号: | 202210334049.5 | 申请日: | 2022-03-31 |
公开(公告)号: | CN114740875A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 张伟;陈燕云;盛嘉鹏;方兴;谭文浩;宋然;李晓磊;程吉禹 | 申请(专利权)人: | 山东大学 |
主分类号: | G05D1/08 | 分类号: | G05D1/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 杨琪 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经 振荡器 机器人 节律 运动 控制 方法 系统 | ||
本发明提供了一种基于神经振荡器的机器人节律运动控制方法及系统,包括:获取机器人的当前状态,以及由神经振荡器产生的相位和频率;依据获取的当前状态、相位和频率,以及预设的强化学习网络,得到控制指令,对机器人进行控制;其中,预设的强化学习网络中包括动作空间、模式形成网络和神经振荡器;本发明设计的由神经振荡器和模式形成网络组成的控制结构,能确保期望的节律运动行为的形成;同时,设计的关节位置增量的动作空间能有效加速节律运动强化学习训练进程,解决了现有无模型强化学习学习时,奖励函数设计耗时、困难的问题。
技术领域
本发明属于机器人控制技术领域,尤其涉及一种基于神经振荡器的机器人 节律运动控制方法及系统。
背景技术
为实现四足机器人的运动控制,一些传统控制方法,如模型预测控制(ModelPredictive Control,MPC)和全身控制(Whole BodyCryotherapy,WBC)通过引入感 官反馈和复杂的控制理论来获得更好的运动性能。虽然这些方法在步态控制上 取得了一定的成效,但它们的实现通常需要丰富的专业知识和漫长的设计过程。
发明人发现,近年来兴起的无模型强化学习(Reinforcement Learning,RL) 成功实现了腿足式机器人运动策略的自主学习。然而,奖励函数通常无法直接 表述期望的节律运动行为;再者,即使是合理的奖励也必须经过精心的设计和 调节才能满足需要,因为对奖励函数的极小调节,也可能导致强化学习行为的 巨大差异;因此,能实现机器人实现无偏差的学习的奖励函数的设计通常很耗 时且困难。
发明内容
本发明为了解决上述问题,提出了一种基于神经振荡器的机器人节律运动 控制方法及系统,本发明设计的由神经振荡器和模式形成网络组成的控制结构, 能确保期望的节律运动行为的形成;同时,设计的关节位置增量的动作空间能 有效加速节律运动强化学习训练进程。
第一方面,本发明提供了一种基于神经振荡器的机器人节律运动控制方法, 包括:
获取机器人的当前状态,以及由神经振荡器产生的相位和频率;
依据获取的当前状态、相位和频率,以及预设的强化学习网络,得到控制 指令,对机器人进行控制;
其中,预设的强化学习网络中包括动作空间、模式形成网络和神经振荡器; 所述动作空间,用于依据获取的当前状态,得到关节位置增量;所述模式形成 网络,用于根据关节位置增量,得到目标关节位置的控制指令;所述神经振荡 器,用于根据获取的相位和频率,调整机器人足底轨迹在摆动阶段和站立阶段 之间相变的时间;依据目标关节位置的控制指令和机器人足底轨迹在摆动阶段 和站立阶段之间相变的时间对机器人进行控制。
进一步的,相位由正弦和余弦函数表示。
进一步的,根据关节位置增量,得到目标关节位置的控制指令时:所述关 节位置增量与前一时刻的目标关节位置相加,获得当前时刻的目标关节位置; 依据当前时刻的目标关节位置,计算关节扭矩。
进一步的,最大关节位置增量由最大电机速度和时间步长决定。
进一步的,神经振荡器输出频率来调制每条腿的相位φ,相位φ∈[0,π)时当 前腿处于支撑相阶段,相位φ∈[π,2π)时当前腿处于摇摆相阶段。
进一步的,当前时刻的相位为:
φt=(φt-1+2π*f*T)%2π
其中,φt表示当前时刻的相位;φt-1表示前一时刻的频率;f表示频率;T表 示时间步长。
进一步的,将机器人的运动问题视为马尔可夫决策过程,在奖励项中添加 频率项和相位项。
第二方面,本发明还提供了一种基于神经振荡器的机器人节律运动控制系 统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210334049.5/2.html,转载请声明来源钻瓜专利网。