[发明专利]基于求解的内省来增强强化学习智能体的训练以对机器人和自主载具进行控制和规划在审
申请号: | 201980082774.4 | 申请日: | 2019-11-21 |
公开(公告)号: | CN113196308A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | M·A·沃伦;C·塞拉诺 | 申请(专利权)人: | 赫尔实验室有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N5/00;G06N3/00;G06N3/04 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 师玮;王小东 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 求解 内省 增强 强化 学习 智能 训练 机器 人和 自主 进行 控制 规划 | ||
1.一种用于控制移动平台的系统,所述系统包括:
移动平台;以及
非暂时性计算机可读介质和一个或更多个处理器,所述非暂时性计算机可读介质上编码有可执行指令,使得所述可执行指令被执行时,所述一个或更多个处理器执行以下操作:
基于所述移动平台的当前状态,训练在所述移动平台上运行的神经网络π;
周期性地查询能够对非线性激活函数进行推理的可满足性模理论(SMT)解算器,以获得满足所述移动平台的指定约束的多个状态示例;
在所述多个状态示例上训练所述神经网络π;
在所述多个状态示例上训练之后,选择要由所述移动平台在该移动平台的环境中执行的动作;以及
使所述移动平台在该移动平台的环境中执行所选择的动作。
2.根据权利要求1所述的系统,其中,所述SMT解算器是根据查询调度来查询的。
3.根据权利要求1所述的系统,其中,所述一个或更多个处理器还执行以下操作:通过执行状态空间量化算法,利用所述SMT解算器生成所述多个状态示例。
4.根据权利要求3所述的系统,其中,所述一个或更多个处理器还执行以下操作:在生成所述多个状态示例时,应用至少一个查询约束。
5.根据权利要求1所述的系统,其中,所述一个或更多个处理器还执行以下操作:
将处理算法应用于所述多个状态示例,产生经处理的状态示例的集合;以及
在所述经处理的状态示例的集合上训练所述神经网络π。
6.一种用于控制移动平台的计算机实现的方法,所述方法包括以下动作:
使一个或更多个处理器执行被编码在非暂时性计算机可读介质上的指令,使得在执行时,所述一个或更多个处理器执行以下操作:
基于所述移动平台的当前状态,训练在所述移动平台上运行的神经网络π;
周期性地查询能够对非线性激活函数进行推理的可满足性模理论(SMT)解算器,以获得满足所述移动平台的指定约束的多个状态示例;
在所述多个状态示例上训练所述神经网络π;
在所述多个状态示例上训练之后,选择要由所述移动平台在该移动平台的环境中执行的动作;以及
使所述移动平台在该移动平台的环境中执行所选择的动作。
7.根据权利要求6所述的方法,其中,所述SMT解算器是根据查询调度来查询的。
8.根据权利要求6所述的方法,其中,所述一个或更多个处理器还执行以下操作:通过执行状态空间量化算法,利用所述SMT解算器生成所述多个状态示例。
9.根据权利要求8所述的方法,其中,所述一个或更多个处理器还执行以下操作:在生成所述多个状态示例时,应用至少一个查询约束。
10.根据权利要求6所述的方法,其中,所述一个或更多个处理器还执行以下操作:
将处理算法应用于所述多个状态示例,产生经处理的状态示例的集合;以及
在所述经处理的状态示例的集合上训练所述神经网络π。
11.一种用于控制移动平台的计算机程序产品,所述计算机程序产品包括:
计算机可读指令,所述计算机可读指令被存储在非暂时性计算机可读介质上,所述计算机可读指令能够由具有一个或更多个处理器的计算机执行,以使所述处理器执行以下操作:
基于所述移动平台的当前状态,训练在所述移动平台上运行的神经网络π;
周期性地查询能够对非线性激活函数进行推理的可满足性模理论(SMT)解算器,以获得满足所述移动平台的指定约束的多个状态示例;
在所述多个状态示例上训练所述神经网络π;
在所述多个状态示例上训练之后,选择要由所述移动平台在该移动平台的环境中执行的动作;以及
使所述移动平台在该移动平台的环境中执行所选择的动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赫尔实验室有限公司,未经赫尔实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980082774.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:测试条指示器确定系统、终端设备和方法
- 下一篇:用于活检的组织样本收集器