[发明专利]基于深度强化学习的双足机器人自适应性行走控制方法有效
申请号: | 201910629037.3 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110262511B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 马璐 | 申请(专利权)人: | 同济人工智能研究院(苏州)有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/04;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 翁惠瑜 |
地址: | 215100 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 机器人 自适应性 行走 控制 方法 | ||
本发明涉及一种基于深度强化学习的双足机器人自适应性行走控制方法,包括以下步骤:步骤1)建立仿真平台;步骤2)构建基于引入注意力机制的深度强化学习方法的网络模型;步骤3)根据双足机器人在仿真平台的环境中的交互信息训练网络模型,所述交互信息存储于经历回放池中;步骤4)利用完成训练的网络模型实现对双足机器人行走的自适应控制。与现有技术相比,本发明具有收敛速度快、拟合效果好、行走稳定性强等优点。
技术领域
本发明涉及一种机器人控制方法,尤其是涉及一种基于深度强化学习的双足机器人自适应性行走控制方法。
背景技术
经过技术不断的发展和创新,双足机器人已经能够在已知的环境中,通过轨迹规划,或者轨迹示教等方法完成行走。但是相比于人类在未知环境下,能够自适应调整步态,穿越障碍,灵活运动,双足机器人的行走控制仍然存在许多需要改进和提高的地方。
在复杂环境中的双足机器人的自适应性行走控制存在以下几个难点:
1.步态多样。机器人在穿越复杂地形的时候需要产生很多种步态,经典的机器人行走控制算法例如多目标优化、梯度下降、遗传算法以及单层CPG无法满足机器人在多种地形状态的自适应性。大多数依赖轨迹预规划,以及落脚点调节等调制部分。
2.参数庞大。能够产生灵活步态的网络需要在庞大的参数空间中搜索到最优解,机器人行走的自适应性依赖所设计网络中的大量参数支撑。传统算法的参数寻优方式比如遗传算法、蚁群算法、策略梯度、多目标优化等算法计算量大,迭代缓慢,优化参数个数有限。
3.传感信息丰富。行走在实际环境中的机器人有图像、力学、关节角度、雷达测距等多种外界信息的输入,机器人需要依靠复杂环境下的传感信息决策。因此控制系统需要具有从复杂的输入信息提取出最有利于当下决策判断信息的能力。
策略梯度算法作为大规模强化学习中的经典算法,在游戏、围棋、路径规划等场景下得到了广泛的应用。但是机器人行走是一个当前状态和前序状态紧密相关,且对当前状态的建模依赖隐形传感信息的部分可观测马尔可夫过程。在这种情况下策略梯度算法例如RDPG、DDPG、Actor2Critic模型表现一般,甚至对于复杂输入无法收敛。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种基于深度强化学习的双足机器人自适应性行走控制方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度强化学习的双足机器人自适应性行走控制方法,包括以下步骤:
步骤1)建立仿真平台;
步骤2)构建基于引入注意力机制的深度强化学习方法的网络模型;
步骤3)根据双足机器人在仿真平台的环境中的交互信息训练网络模型,所述交互信息存储于经历回放池中;
步骤4)利用完成训练的网络模型实现对双足机器人行走的自适应控制。
进一步地,所述步骤1)包括设置仿真平台的地形种类。
进一步地,所述步骤2)包括网络模型超参数的配置和网络模型结构的设计。
进一步地,所述网络模型的结构包括针对动作生成策略的动作预测网络和针对价值函数生成策略的价值预测网络,所述价值预测网络中引入注意力机制。
进一步地,所述价值预测网络中引入注意力机制具体为:
在传感信息层面引入用于区分双足机器人在可变环境中对传感信息的侧重程度的注意力机制;
在分批学习层面引入使双足机器人辨别和采集有学习价值的训练样本的注意力机制。
进一步地,所述网络模型为带有循环神经网络的网络结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济人工智能研究院(苏州)有限公司,未经同济人工智能研究院(苏州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910629037.3/2.html,转载请声明来源钻瓜专利网。