[发明专利]使用超模型的探索在审
申请号: | 202080062843.8 | 申请日: | 2020-09-25 |
公开(公告)号: | CN114341895A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | B.范罗伊;陆修远;V.R.德瓦拉切尔拉;Z.温;M.伊布拉希米;I.D.M.奥斯本 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 模型 探索 | ||
用于控制代理的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。一种方法包括:根据连续空间上的概率分布从可能索引变量的连续空间采样一个或多个索引变量;对于每个索引变量:根据超模型的多个参数值使用超模型处理索引变量,以生成指定环境模型的多个参数值的输出,并且根据由超模型输出为索引变量指定的环境模型的多个参数值,使用环境模型生成动作选择输出;以及使用针对一个或多个索引变量的一个或多个动作选择输出来选择要由代理在该时间步骤处执行的动作。
背景技术
本说明书涉及使用机器学习模型控制代理。
机器学习模型接收输入并且基于接收到的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并且基于接收到的输入和模型的参数值生成输出。
一些机器学习模型是采用多层模型为接收到的输入生成输出的深度模型。例如,深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型,每个隐藏层对接收到的输入应用非线性变换以生成输出。
发明内容
本说明书描述了被实施为一个或多个位置中的一个或多个计算机上的计算机程序的系统,系统通过选择要由代理执行的动作来控制代理与环境的交互。特别地,系统使用生成指定环境模型的多个参数值的输出的超模型来控制代理。
可以实施本说明书中描述的主题的特定实施例,以便实现一个或多个以下优点。
本说明书中描述的系统使用超模型和环境模型来选择要由与环境交互的代理执行的动作。超模型处理从可能索引(index)变量的连续空间上的概率分布中采样的索引变量,以生成指定环境模型的参数值的输出。环境模型根据由超模型输出指定的参数值生成动作选择输出。在本说明书中描述的系统可以被理解为将可能索引变量的连续空间上的概率分布转换成反映关于环境的不确定性的环境模型的参数值上的概率分布。当系统基于代理与环境的交互来训练超模型和环境模型时,关于环境的不确定性随着时间而改变。
系统使用超模型和环境模型来选择使代理能够有效地探索环境的动作。与(例如,单独训练不同环境模型集合(ensemble)的)替代系统相比,系统实现了改进的效率和性能。特别地,在本说明书中描述的系统可以被理解为联合训练无限多个环境模型的集合,即,每个环境模型对应于来自可能索引变量的连续空间的相应索引变量。以这种方式,与(例如,单独训练环境模型的有限集合中的每个环境模型)的替代系统相比,系统实现了计算效率的提高。此外,本说明书中描述的系统可以比(例如,使用环境模型的有限集合的)替代系统更有效地代表环境中的不确定性,从而使代理能够更有效地探索环境,并最终在完成环境中的任务时实现改进的性能。
本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书,本主题的其他特征、方面和优点将变得显而易见。
附图说明
图1A示出了示例控制系统。
图1B示出了超模型和环境模型的示例。
图2是用于选择要由代理执行的动作的示例过程的流程图。
图3是用于从多个动作选择输出中选择动作的示例过程的流程图。
图4是用于训练超模的示例过程的流程图。
不同附图中相同的附图标记和名称表示相同的元件。
具体实施方式
本说明书描述了一种被实施为在一个或多个位置中的一个或多个计算机上的计算机程序的系统,系统使用超模型控制代理以使得代理与环境交互。
在一些情况下,系统使用表征环境在给定时间步骤处的状态的观测来选择要由代理在该时间步骤处执行的动作。在其他情况下,系统在没有观测的情况下,即仅基于编码在超模型的参数值中的经验,选择要由代理执行的动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080062843.8/2.html,转载请声明来源钻瓜专利网。