[发明专利]使用多模态输入选择动作有效
申请号: | 201880026852.4 | 申请日: | 2018-06-05 |
公开(公告)号: | CN110692066B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | K.M.赫尔曼;P.布伦森;F.G.希尔 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06N3/092;G06N3/0464;G06F40/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 多模态 输入 选择 动作 | ||
方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于选择要由与环境交互的智能体执行的动作。在一个方面,一种系统包括语言编码器模型,该语言编码器模型被配置为接收特定自然语言的文本串,并处理该文本串以生成该文本串的文本嵌入。系统包括观察编码器神经网络,该观察编码器神经网络被配置为接收表征环境的状态的观察,并处理该观察以生成该观察的观察嵌入。系统包括子系统,该子系统被配置为获得当前文本串的当前文本嵌入和当前观察的当前观察嵌入。子系统被配置为选择智能体响应于当前观察要执行的动作。
技术领域
本说明书涉及强化学习。
背景技术
在强化学习系统中,智能体(agent)通过执行由强化学习系统响应于接收到表征环境的当前状态的观察选择的动作来与环境交互。
一些强化学习系统按照神经网络的输出,选择智能体响应于接收到给定的观察要执行的动作。
神经网络是采用一层或多层非线性单元来预测接收的输入的输出的机器学习模型。一些神经网络是深度神经网络,除了输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一个层(即下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集合的当前值从接收的输入生成输出。
发明内容
本说明书描述了一种系统,该系统被实现为在一个或多个位置的一个或多个计算机上的计算机程序,其选择要由与环境交互的强化学习智能体执行的动作。
根据第一方面,提供一种用于选择要由与环境交互的智能体执行的动作的系统,该系统包括一个或多个计算机以及一个或多个存储设备,该存储设备存储指令。当所述指令由所述一个或多个计算机执行时,使所述一个或多个计算机实现语言编码器模型、观察编码器神经网络和子系统。
语言编码器模型被配置为:接收特定自然语言的输入文本串,以及处理输入文本串以生成输入文本串的文本嵌入。观察编码器神经网络被配置为:接收表征环境的状态的输入观察,以及处理输入观察以生成输入观察的观察嵌入。子系统被配置为:接收特定自然语言的当前文本串,其表达关于智能体当前正在执行的当前任务的信息。该子系统提供当前文本串作为语言编码器模型的输入,以获得当前文本串的当前文本嵌入。该子系统接收表征环境的当前状态的当前观察。该子系统提供当前观察作为观察编码器神经网络的输入,以获得当前观察的当前观察嵌入。该子系统组合当前观察嵌入和当前文本嵌入,以生成当前组合嵌入。该子系统使用当前组合嵌入,选择智能体响应于当前的观察要执行的动作。
在一些实施方式中,所述指令还使所述一个或多个计算机实现动作选择神经网络。动作选择神经网络被配置为:接收输入组合嵌入,以及处理输入组合嵌入以生成动作选择输出。
在一些实施方式中,使用所述当前组合嵌入,选择智能体响应于当前观察要执行的动作包括:提供当前组合嵌入作为动作选择神经网络的输入,以获得当前动作选择输出。使用当前操作选择输出,选择智能体响应于当前观察要执行的动作。
在一些实施方式中,所述当前动作选择输出定义智能体要执行的可能动作上的概率分布。选择智能体要执行的动作包括:从所述概率分布中采样动作或根据概率分布选择具有最高概率的动作。
在一些实施方式中,对于智能体要执行的多个可能动作中的每一个,所述当前动作选择输出包括相应的Q值,所述相应的Q值是智能体响应于当前观察执行所述可能动作而导致的回报的估计。选择智能体要执行的动作包括:选择具有最高Q值的动作。
在一些实施方式中,所述当前动作选择输出识别智能体响应于当前观察要执行的最佳可能动作,并且选择智能体要执行的动作包括:选择所述最佳可能动作。
在一些实施方式中,所述语言编码器模型是递归神经网络(recurrent neuralnetwork)。
在一些实施方式中,所述语言编码器模型是词袋编码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880026852.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于表面的对象识别的方法、装置和计算机可读存储介质
- 下一篇:量子神经网络