[发明专利]使用高级策略模型和经训练的低级策略模型进行机器人导航在审
申请号: | 201980078868.4 | 申请日: | 2019-11-27 |
公开(公告)号: | CN113165178A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | A.托谢夫;M.菲泽;A.瓦希德 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G06N3/04;G06N3/08;G05D1/02 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 高级 策略 模型 训练 低级 进行 机器人 导航 | ||
训练和/或使用高级策略模型和低级策略模型两者进行移动机器人导航。在每次迭代中使用高级策略模型生成的高级输出指示在导航到导航目标时机器人运动的对应高级动作。在每次迭代中生成的低级输出基于针对该迭代确定的对应高级动作,并基于对该迭代的(一个或多个)观察。训练低级策略模型,以生成定义(一个或多个)低级动作的低级输出,与高级动作相比,该低级动作更精细地定义机器人运动—并生成避开障碍物和/或高效(例如,距离和/或时间效率)的(一个或多个)低级动作。
背景技术
机器人导航是机器人技术的基本挑战之一。为了有效地进行操作,各种移动机器人需要在动态环境中进行稳健的导航。机器人导航通常被定义为找到从起始位置到目标位置的路径,并以稳健和安全的方式执行该路径。通常,机器人导航需要机器人感知其环境、相对于目标定位自身、推断(reason about)在其紧邻接近内的障碍物以及推断到目标的远程路径。
传统上,机器人导航系统依靠特征提取和基于几何的推断来定位机器人并绘制其环境的地图。生成或给出机器人环境的地图时,机器人可以使用该地图利用规划算法找到导航路径。
最近,使用强化学习(RL)训练神经网络策略模型已经成为用于机器人导航的一种选项。借助机器人经验数据使用强化学习而被训练的策略模型学习将原始观察与动作关联,而无需进行地图绘制或显式的路径规划。但是,使用RL而被训练的各种当前策略模型难以成功地部署在真实机器人上。难点可能是由于例如RL算法的高样本复杂度。这样的高样本复杂度意味着神经网络策略模型通常只能在模拟环境中被成功地训练。当在真实机器人上实现时,在模拟环境中被训练的神经网络策略模型可能会失败和/或性能不佳。这可能是由于例如由真实机器人的真实传感器捕获的图像和/或其他观察数据在视觉上不同于用于训练神经网络策略模型的模拟观察数据。
发明内容
本文公开的实施方式涉及训练和/或使用高级策略模型和低级策略模型两者进行移动机器人导航。例如,可以协作地使用高级策略模型和低级策略模型以执行点到点的导航,其中,移动机器人从当前姿态导航到环境中的导航目标,诸如环境中的特定位置、环境中的特定物体或环境中的其他导航目标。高级策略模型和低级策略模型均可以是机器学习模型,诸如神经网络模型。在各种实施方式中,高级策略模型是循环神经网络(RNN)模型和/或低级策略模型是前馈神经网络模型,诸如卷积神经网络(CNN)模型。
高级策略模型用于基于导航目标的目标标签并基于(一个或多个)当前机器人观察(例如,观察数据),生成指示鉴于当前机器人观察应当实现多个离散的高级动作中的哪一个来到达导航目标的高级输出。作为一个非限制性示例,高级动作可以包括“前进”、“右转”和“左转”。低级策略模型用于基于(一个或多个)当前机器人观察(其可以可选地与用于生成高级输出的当前机器人观察不同)并可选地基于基于高级输出而选择的高级动作来生成低级动作输出。低级动作输出定义低级动作,与高级动作相比,低级动作更精细地定义机器人运动。作为一个非限制性示例,低级动作可以定义移动机器人的一个或多个轮子中的每个轮子的对应的角速度和对应的线速度。然后,可以使用低级动作输出来控制移动机器人的一个或多个致动器以实现对应的低级动作。继续非限制性示例,可以将控制命令提供给驱动(一个或多个)轮子的一个或多个马达,以使(一个或多个)轮子各自实现其相应的角速度和线速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980078868.4/2.html,转载请声明来源钻瓜专利网。