[发明专利]一种用于选择待由与环境进行交互的强化学习代理执行的动作的方法有效

申请号：	201680034778.1	申请日：	2016-09-09
公开（公告）号：	CN107851216B	公开（公告）日：	2022-03-08
发明（设计）人：	豪多·菲利普·范哈塞尔特;亚瑟·克莱蒙特·格斯	申请（专利权）人：	谷歌有限责任公司
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	李宝泉;周亚荣
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于选择环境进行交互强化学习代理执行动作方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于选择待由与环境进行交互的强化学习代理执行的动作的方法，所述环境是模拟环境或真实世界环境，所述方法使用作为经训练的深度神经网络的Q网络执行并且包括接收与所述模拟环境或真实世界环境相关联的输入观察以及与控制所述模拟环境或真实世界环境中的实体相关联的控制输入作为输入，并且根据参数的集合从所述输入生成估计的未来累积奖励，所述Q网络通过接收表征环境的状态的观察并且响应于所述观察而执行来自动作的集合中的动作来被训练，

其中，所述Q网络的所述训练包括：

获取多个经验元组，其中，每个经验元组包括训练观察、由所述代理响应于接收到所述训练观察而执行的动作、响应于所述代理执行所述动作而接收到的奖励、以及表征所述环境的下一状态的下一训练观察；以及

对所述经验元组中的每个经验元组训练所述Q网络，包括对于每个经验元组：

根据所述Q网络的所述参数的当前值通过使用所述Q网络来处理所述经验元组中的所述训练观察和所述经验元组中的所述动作以确定所述经验元组的当前估计的未来累积奖励；

使用所述Q网络和目标Q网络两者来确定所述经验元组的下一目标估计的未来累积奖励，其中，所述目标Q网络具有与所述Q网络相同的神经网络架构，但是所述Q网络的所述参数的当前值与所述目标Q网络的参数的集合的当前值不同，所述确定包括：

使用所述Q网络从所述动作的集合中选择动作，所选择的动作在由所述Q网络结合所述下一观察被处理时使所述Q网络生成最高估计的未来累积奖励，包括：

对于所述动作的集合中的每个动作，根据所述Q网络的所述参数的当前值通过使用所述Q网络来处理所述经验元组中的所述下一观察和所述动作以确定所述动作的相应下一估计的未来累积奖励；以及

从所述动作的集合中选择具有最高下一估计的未来累积奖励的动作；使用所述目标Q网络确定使用所述Q网络选择的所选择的动作的下一目标估计的未来累积奖励，包括根据目标Q网络的所述参数的当前值通过使用所述目标Q网络来处理所述经验元组中的所述下一观察和所选择的动作以确定所选择的动作的所述下一目标估计的未来累积奖励；

根据所述经验元组中的所述奖励、所选择的动作的所述下一目标估计的未来累积奖励和所述当前估计的未来累积奖励来确定所述经验元组的误差；以及

使用所述经验元组的所述误差来更新所述Q网络的所述参数的当前值。

2.根据权利要求1所述的方法，其中，所述误差E满足：

E＝R+γ*NTER–CER,

其中，R是所述经验元组中的所述奖励，γ是指定折扣因子，NTER是所选择的动作的所述下一目标估计的未来累积奖励，并且CER是所述当前估计的未来累积奖励。

3.根据权利要求1所述的方法，其中，使用所述经验元组的所述误差来更新所述Q网络的所述参数的当前值包括：

使用机器学习训练技术来更新所述Q网络的所述参数的当前值以减少所述误差。

4.根据权利要求1所述的方法，其中，所述目标Q网络的所述参数的值周期性地与所述Q网络的所述参数的值同步。

5.根据权利要求4所述的方法，其中，所述Q网络的所述训练进一步包括：

在对所述经验元组中的每个经验元组训练所述Q网络以确定所述Q网络的所述参数的更新值之后，

更新所述目标Q网络的当前值以匹配所述Q网络的所述参数的所述更新值。

6.根据权利要求1所述的方法，其中，所述Q网络的所述训练进一步包括输出具有参数的更新的当前值的所述Q网络。