[发明专利]信息处理装置和信息处理方法在审

申请号：	201780075833.6	申请日：	2017-11-30
公开（公告）号：	CN110073376A	公开（公告）日：	2019-07-30
发明（设计）人：	铃木洋贵;成平拓也;大里章人;中田健人	申请（专利权）人：	索尼公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	刘雯鑫;陈炜
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	报酬代理代理提供模拟真实世界模拟器信息处理信息处理设备信息处理装置报酬提供技术应用强化学习行动决策状态时场景创建学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明的技术涉及使得可以在模拟真实世界的模拟器环境中实现各种事件场景的各种变化的信息处理设备和信息处理方法。报酬提供单元向第一代理和第二代理提供报酬，该第一代理和第二代理在模拟真实世界的模拟器环境中采取行动并且根据相对于行动的报酬来学习行动决策规则。向第一代理提供根据规定的报酬定义的报酬。此外，向第二代理提供根据相反报酬定义的报酬，该相反报酬定义与规定的报酬定义相反使得在第二代理采取行动以创建第一代理的报酬变得更小的状态时获得的报酬变得更大，以及在第二代理采取行动使得第一代理的报酬变得更大时获得的报酬变得更小。本技术应用于例如用于代理的强化学习。

技术领域

本技术涉及信息处理装置和信息处理方法，并且具体地涉及允许在例如模拟真实世界的模拟器环境中实现各种事件场景的变化的信息处理装置和信息处理方法。

背景技术

在模拟真实世界的模拟器环境中，称为强化学习的学习被包括在机器学习框架中，其中，在模拟器环境中采取行动的(人工智能)代理学习行动决策规则以根据目的和情况采取期望的行动。

在强化学习中，代理基于包括可观察到的观测值作为分量的状态s根据用作行动决策规则的学习模型确定行动a。代理根据学习模型采取行动a，并且针对行动a接收表示行动a是否适合实现期望目的的报酬r。代理然后使用行动a、采取行动a之后的状态s和用于行动a的报酬r来更新学习模型以增加将来要接收的(一个或多个)报酬r的(总和)。代理根据更新的学习模型来确定行动a，并且随后重复类似的处理。

用于强化学习的学习模型是例如深Q网(网络)(例如，参见NPL 1)。

在强化学习中，根据预定的报酬定义计算报酬r。报酬定义是用于计算报酬的准则，并且是例如诸如以下函数的等式，该函数允许将代理采取行动a之后的状态s与人对代理预期的状态进行核对以定量地表示代理采取行动a之后的状态s是好还是坏。

在强化学习中，将搜索行动与代理的行动混合在一起。特别是在学习的初始时段中，通过随机行动来学习用作行动决策规则的学习模型。在代理采取搜索行动的处理期间，当在真实世界中使用真实硬件时，对真实世界的环境和硬件产生很大的负荷。也就是说，在最坏的情况下，真实世界中的对象和硬件可能会彼此碰撞并且被破坏。

因此，生成了模拟真实世界的模拟器环境，并且通过执行模拟来实现代理的强化学习，在该模拟中使(虚拟)代理在模拟器环境下采取行动。

在模拟器环境中完成代理的学习之后，将代理的(学习模型)应用于实际装置等以允许装置等在真实世界中采取适当的行动(执行适当的操作)。

引用列表

非专利文献

[NPL 1]

Mnih，Volodymyr等人，“Human-level control through deep reinforcementlearning”,自然518.7540(2015)：529-533。

发明内容

技术问题

在旨在学习的代理A与不旨在学习的代理B在模拟器环境中共存的情况下，代理B例如被编程为根据预定规则而采取行动。

在该情况下，允许代理B仅采取初步假定的行动。因此，在模拟器环境中可再现的场景的变化是有限的。

另一方面，对于旨在学习的代理A的学习，生成适合于在真实世界中很少发生的异常事件的行动的能力通常非常重要。

例如，在代理A是用作学习车辆控制规则的自动驾驶车辆的代理，并且代理B是用作另一车辆的代理，例如自行车、行人等的情况下，则例如，根据现实的、标准的物理模型或行动模型来预先编程用作自行车、行人等的代理B的行动。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于索尼公司，未经索尼公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201780075833.6/2.html，转载请声明来源钻瓜专利网。

上一篇：用于量子位读出的补偿脉冲
下一篇：用于个人自主车辆的商业运营的方法和设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]信息处理装置和信息处理方法在审

专利文献下载