[发明专利]信息处理装置和信息处理方法在审
申请号: | 201780075833.6 | 申请日: | 2017-11-30 |
公开(公告)号: | CN110073376A | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 铃木洋贵;成平拓也;大里章人;中田健人 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘雯鑫;陈炜 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的技术涉及使得可以在模拟真实世界的模拟器环境中实现各种事件场景的各种变化的信息处理设备和信息处理方法。报酬提供单元向第一代理和第二代理提供报酬,该第一代理和第二代理在模拟真实世界的模拟器环境中采取行动并且根据相对于行动的报酬来学习行动决策规则。向第一代理提供根据规定的报酬定义的报酬。此外,向第二代理提供根据相反报酬定义的报酬,该相反报酬定义与规定的报酬定义相反使得在第二代理采取行动以创建第一代理的报酬变得更小的状态时获得的报酬变得更大,以及在第二代理采取行动使得第一代理的报酬变得更大时获得的报酬变得更小。本技术应用于例如用于代理的强化学习。 | ||
搜索关键词: | 报酬 代理 代理提供 模拟真实世界 模拟器 信息处理 信息处理设备 信息处理装置 报酬提供 技术应用 强化学习 行动决策 状态时 场景 创建 学习 | ||
【主权项】:
1.一种信息处理装置,包括:模拟器环境生成单元,生成模拟真实世界的模拟器环境;以及报酬提供单元,针对在所述模拟器环境中采取行动并且根据针对所述行动的报酬来学习行动决策规则的第一代理和第二代理,所述报酬提供单元向所述第一代理提供根据规定的报酬定义的报酬,并且向所述第二代理提供根据与所述规定的报酬定义相反的相反报酬定义的报酬,所述相反报酬定义在所述第二代理采取行动而引起用于所述第一代理的报酬减少的状况的情况下使所得到的报酬增加,并且在所述第二代理采取行动而增加用于所述第一代理的报酬的情况下使所得到的报酬减少。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201780075833.6/,转载请声明来源钻瓜专利网。
- 上一篇:用于量子位读出的补偿脉冲
- 下一篇:用于个人自主车辆的商业运营的方法和设备