[发明专利]多任务强化学习中利用元梯度学习动作选择的选项在审
申请号: | 202180026583.3 | 申请日: | 2021-06-07 |
公开(公告)号: | CN115380293A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | V.V.杰亚维莱亚;T.B.Z.扎哈维;M.赫塞尔;Z.徐;J.吴;I.凯梅夫;H.P.范哈塞尔特;D.西尔沃;S.S.巴韦加 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 强化 学习 利用 梯度 动作 选择 选项 | ||
1.一种用于控制代理在与环境交互的同时执行多个任务的计算机实现的系统,其中,系统被配置为在多个时间步长中的每一个,处理包括表征环境的当前状态的观察的输入,以生成用于选择将由代理执行的动作的输出,并且接收响应于所述动作的任务奖励,所述系统包括:
管理器神经网络和选项策略神经网络集合,每个选项策略神经网络用于根据相应的选项策略选择将由代理执行的动作序列;
其中,管理器神经网络被配置为,在时间步长:
根据管理器神经网络的参数值,处理观察和标识当前正在由代理执行的任务中的一个的数据,以生成用于从管理器动作集合中选择管理器动作的输出,其中,管理器动作集合包括能够由代理执行的可能动作和选项选择动作集合,每个选项选择动作选择选项策略神经网络中的一个;
其中,每个选项策略神经网络被配置为,在一系列时间步长中的每个步长:
根据由选项策略神经网络的参数值定义的选项策略,处理该时间步长的观察,以生成用于选择将由代理执行的动作的输出;
其中,当所选择的管理器动作是选项选择动作时,由管理器动作选择的选项策略神经网络对于直到满足选项终止准则为止的一系列时间步长生成用于选择动作的输出,并且当所选择的管理器动作是能够由代理执行的可能动作中的一个时,用于选择动作的输出是所选择的管理器动作;以及
选项奖励神经网络集合,每个选项奖励神经网络用于一个相应的选项策略神经网络,每个选项奖励神经网络被配置为,在时间步长:
根据选项奖励神经网络的参数值来处理观察,以生成相应选项策略神经网络的选项奖励;
其中,所述系统被配置为使用任务奖励来训练选项奖励神经网络集合和管理器神经网络,并使用相应选项策略神经网络的选项奖励来训练选项策略神经网络中的每一个。
2.根据权利要求1所述的系统,其中,所述系统被配置为在元梯度训练技术中使用任务奖励来训练每个选项奖励神经网络以优化来自环境的回报,在元梯度训练技术中,选项奖励神经网络的参数值在相应选项策略神经网络的控制下基于代理与环境的交互被调整。
3.根据权利要求1或2所述的系统,其中,所述系统被配置为通过以下,使用任务奖励来训练选项奖励神经网络集合和管理器神经网络,并使用相应的选项策略神经网络的选项奖励来训练选项策略神经网络中的每一个:
在选项选择动作之后并且对于直到满足终止准则为止的一系列时间步长:
使用任务奖励更新管理器神经网络的参数值,并且使用相应选项策略神经网络的选项奖励来更新由选项选择动作选择的相应选项策略神经网络的参数值;然后
在满足终止准则后:
使用任务奖励来更新用于相应选项策略神经网络的选项奖励神经网络的参数值。
4.根据权利要求3所述的系统,其中,使用任务奖励来更新用于相应选项策略神经网络的选项奖励神经网络的参数值包括:
生成轨迹以及相应的观察和任务奖励,轨迹包括由选项选择动作选择的相应选项策略神经网络而选择的一个或多个动作的序列;以及
使用来自轨迹的任务奖励更新用于相应选项策略神经网络的选项奖励神经网络的参数值。
5.根据权利要求4所述的系统,其中,使用来自轨迹的任务奖励更新用于相应选项策略神经网络的选项奖励神经网络的参数值包括:将基于来自轨迹的任务奖励的选项奖励目标函数的梯度反向传播通过相应选项策略神经网络并通过用于相应选项策略神经网络的选项奖励神经网络。
6.根据权利要求3-5中任一项所述的系统,其中,更新管理器神经网络的参数值、相应选项策略神经网络的参数值和选项奖励神经网络的参数值中的一个或多个包括基于n步回报进行更新。
7.根据权利要求3-6中任一项所述的系统,其中,使用任务奖励更新管理器神经网络的参数值包括反向传播管理器目标函数的梯度,其中,更新相应选项策略神经网络的参数值包括反向传播选项策略目标函数的梯度,并且其中,管理器目标函数和选项策略目标函数各自包括相应的强化学习目标函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180026583.3/1.html,转载请声明来源钻瓜专利网。