[发明专利]基于深度强化学习的双足机器人自适应性行走控制方法有效
申请号: | 201910629037.3 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110262511B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 马璐 | 申请(专利权)人: | 同济人工智能研究院(苏州)有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/04;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 翁惠瑜 |
地址: | 215100 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 机器人 自适应性 行走 控制 方法 | ||
1.一种基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,包括以下步骤:
步骤1)建立仿真平台;
步骤2)构建基于引入注意力机制的深度强化学习方法的网络模型;
步骤3)根据双足机器人在仿真平台的环境中的交互信息训练网络模型,所述交互信息存储于经历回放池中;
步骤4)利用完成训练的网络模型实现对双足机器人行走的自适应控制;
所述网络模型的结构包括针对动作生成策略的动作预测网络和针对价值函数生成策略的价值预测网络,且价值预测网络中引入注意力机制;
所述价值预测网络中引入注意力机制具体为:
在传感信息层面引入用于区分双足机器人在可变环境中对传感信息的侧重程度的注意力机制;
在分批学习层面引入使双足机器人辨别和采集有学习价值的训练样本的注意力机制;
所述网络模型为带有循环神经网络的网络结构。
2.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,所述步骤1)包括设置仿真平台的地形种类。
3.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,所述步骤2)包括网络模型超参数的配置和网络模型结构的设计。
4.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,所述交互信息为一5元组,该5元组包括上一个时间步的状态和动作、本次时间步的状态和回报值以及是否完成回合的Done标。
5.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,训练网络模型时,从所述经历回放池中有优先级地采集设定批次的交互信息作为训练样本。
6.根据权利要求1所述的基于深度强化学习的双足机器人自适应性行走控制方法,其特征在于,还包括:
在所述仿真平台对完成训练的网络模型进行评价,并根据评价结果调整网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济人工智能研究院(苏州)有限公司,未经同济人工智能研究院(苏州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910629037.3/1.html,转载请声明来源钻瓜专利网。