[发明专利]基于深度Q网络的仿人机器人步态优化控制方法在审

申请号：	201911094657.8	申请日：	2019-11-11
公开（公告）号：	CN110764416A	公开（公告）日：	2020-02-07
发明（设计）人：	刘惠义;袁雯;陶莹;刘晓芸	申请（专利权）人：	河海大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	32224 南京纵横知识产权代理有限公司	代理人：	张倩倩
地址：	210024 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	仿人机器人网络模型步态动作参数动作策略训练样本动作环境记忆数据交互数据快速稳定模型构建行走过程学习训练状态参数网络构建步行输出奖励更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度Q网络的仿人机器人步态优化控制方法，其特征是，包括：

进行仿人机器人的步态模型构建，以实现仿人机器人的全方位行走；

获取仿人机器人在行走过程中与环境之间的交互数据，存入记忆数据池，用于提供训练样本；所述交互数据为四元组(s,a,r,s′)，其中s代表状态参数，a代表仿人机器人在状态s下执行的动态参数，r代表仿人机器人在状态s下执行动作a获得的反馈奖励值，s′代表仿人机器人在状态s下执行动作a后的下一状态；

构建深度Q网络学习架构，基于记忆数据池的训练样本对深度Q网络进行学习训练，得到仿人机器人的状态-动作策略深度Q网络模型；

获取仿人机器人在动作环境中的状态参数，作为深度Q网络模型的输入，得到深度Q网络模型在当前状态-动作策略下的动作参数；

利用已构建的步态模型，根据深度Q网络模型输出的动作参数，对仿人机器人进行步态控制。

2.根据权利要求1所述的方法，其特征是，还包括在仿人机器人的行走过程中，记录每一步对应的四元组交互数据至记忆数据池，以设定的步数周期，重复对深度Q网络进行训练，并利用训练后的深度Q网络模型进行仿人机器人步态控制。

3.根据权利要求1所述的方法，其特征是，仿人机器人的状态参数s包括单位时间内行走距离dis和当前质心速度，动作参数a包括仿人机器人的步长L、抬脚最大高度H_w、步行周期T_w、质心高度H_CoM和双脚间距F。

4.根据权利要求1或3所述的方法，其特征是，基于三维线性倒立摆模型(3D LinearInverted Pendulum Model，3D-LIPM)和零力矩阵点(Zero-Moment Point，ZMP)构建步态模型，以规划质心和游动腿的运动轨迹，运用正运动学计算各个关节位姿，再通过逆运动学计算各关节的目标转动角度，从而实现仿人机器人的全方位行走；

质心的ZMP轨迹采用直线方程来表示，设ZMP的坐标为p＝(p_x,p_y,0)，令支撑脚的中心位置为坐标原点，则ZMP轨迹方程表示为：

其中p_xmin表示脚跟的位置，p_xmax表示脚趾的位置，T_w为步行周期，侧向ZMP为支撑脚的中心。可避免单个步行周期中ZMP的轨迹为定值，而是从脚跟向前移动到脚趾方向的，从而实现仿人机器人的类人行走。

5.根据权利要求4所述的方法，其特征是，游动腿的运动轨迹采用简谐振动合成法确定，包括游动腿在x轴、y轴及z轴方向上的运动轨迹；

在x轴或y轴方向上，设置步行初始时刻和结束时刻的游动腿速度和加速度皆为0，其它时刻游动腿的轨迹表示为：

其中，L表示最大步长，T_w为步行周期；

假设机器人在抬腿至最大高度和从最大高度落地两个阶段经历的时间皆为则游动腿在z轴方向上的轨迹表示为：

其中，H_w表示最大抬腿高度。

6.根据权利要求1或2所述的方法，其特征是，深度Q网络包括结构相同的当前策略网络与目标策略网络，以及结构相同初始参数不同的当前值网络与目标值网络；当前值网络和目标值网络分别对应用于估计当前策略网络与目标策略网络的Q值；当前值网络的输出为Q(s,a|θ_i^-)，目标值网络的输出为即目标Q值的优化，a′为目标策略网络在状态s′下的动作输出，θ为当前网络的权重；

训练过程中进行当前值网络与目标值网络权重的迭代更新，其中当前值网络权重使用soft update方式实时更新，以逐渐逼近当前策略网络的权重，并在设定的迭代步数后，将当前值网络的权重复制给目标值网络；当前策略网络的权重通过最优化当前值网络与目标值网络的Q值之间的均方误差进行更新。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911094657.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度Q网络的仿人机器人步态优化控制方法在审

专利文献下载