[发明专利]使用高级策略模型和经训练的低级策略模型进行机器人导航在审
申请号: | 201980078868.4 | 申请日: | 2019-11-27 |
公开(公告)号: | CN113165178A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | A.托谢夫;M.菲泽;A.瓦希德 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G06N3/04;G06N3/08;G05D1/02 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 高级 策略 模型 训练 低级 进行 机器人 导航 | ||
1.一种在环境中导航移动机器人的方法,所述方法包括:
识别所述环境中的导航目标的目标标签;
将所述移动机器人导航到所述导航目标,将所述移动机器人导航到所述导航目标包括在导航到所述导航目标期间的多次迭代中的每次迭代中:
获得对应的当前观察数据,所述对应的当前观察数据基于来自所述移动机器人的传感器组件的对应的当前输出;
使用经训练的高级策略模型处理所述对应的当前观察数据和所述目标标签,以生成对应的高级动作输出;
使用所述对应的高级动作输出从定义的高级动作空间的多个离散的高级动作中选择对应的特定高级动作;
获得对应的当前附加观察数据,所述对应的当前附加观察数据基于来自所述移动机器人的附加传感器组件的对应的当前附加输出;
使用经训练的低级策略模型处理所述对应的当前附加观察数据和对应的特定高级动作,以生成对应的低级动作输出;
其中,所述对应的低级动作输出定义定义的低级动作空间的对应的低级动作,
其中,与所述高级动作空间相比,所述定义的低级动作空间更精细地定义机器人运动;和
基于所述对应的低级动作输出控制所述移动机器人的一个或多个致动器,以使所述移动机器人实现所述对应的低级动作。
2.根据权利要求1所述的方法,其中,所述定义的高级动作空间的离散的高级动作没有对在所述低级动作空间中定义的机器人运动的一个或多个参数的任何定义。
3.根据权利要求1所述的方法,其中,所述定义的高级动作空间的离散的高级动作没有对机器人运动的任何速度的定义,并且所述低级动作空间定义机器人运动的一个或多个速度。
4.根据前述权利要求中任一项所述的方法,其中,所述低级动作空间是连续动作空间。
5.根据前述权利要求中任一项所述的方法,其中,每个对应的低级动作定义以下一个或两个:一个或多个对应的线速度和一个或多个对应的角速度。
6.根据权利要求5所述的方法,其中,所述移动机器人包括第一轮子,并且其中,每个对应的低级动作定义一个或多个对应的线速度中的所述第一轮子的至少一个对应的线速度。
7.根据前述权利要求中的任一项所述的方法,其中,所述传感器组件是相机。
8.根据前述权利要求中的任一项所述的方法,其中,所述附加传感器组件是接近传感器、一维(1D)LIDAR组件或二维(2D)LIDAR组件。
9.根据前述权利要求中的任一项所述的方法,其中,所述传感器组件是相机,每个对应的当前输出是对应的当前图像,并且每个对应的当前观察数据是所述对应的当前图像的对应嵌入,其通过使用图像嵌入模型处理当前图像而生成。
10.根据前述权利要求中任一项所述的方法,其中,在生成每个对应的高级动作输出时,还使用经训练的高级策略模型来处理所述对应的附加观察数据以及对应的当前观察数据和目标标签。
11.根据权利要求10所述的方法,其中,在生成每个对应的低级动作输出时,不使用经训练的低级策略模型处理对应的当前观察数据。
12.根据前述权利要求中任一项所述的方法,其中,所述经训练的高级策略模型是循环神经网络(RNN)模型。
13.根据前述权利要求中的任一项所述的方法,其中,所述经训练的高级策略模型利用监督学习而被训练。
14.根据前述权利要求中的任一项所述的方法,其中,所述经训练的低级策略模型利用强化学习而被训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980078868.4/1.html,转载请声明来源钻瓜专利网。