[发明专利]信息处理装置和信息处理方法在审
申请号: | 201780075833.6 | 申请日: | 2017-11-30 |
公开(公告)号: | CN110073376A | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 铃木洋贵;成平拓也;大里章人;中田健人 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘雯鑫;陈炜 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 报酬 代理 代理提供 模拟真实世界 模拟器 信息处理 信息处理设备 信息处理装置 报酬提供 技术应用 强化学习 行动决策 状态时 场景 创建 学习 | ||
1.一种信息处理装置,包括:
模拟器环境生成单元,生成模拟真实世界的模拟器环境;以及
报酬提供单元,针对在所述模拟器环境中采取行动并且根据针对所述行动的报酬来学习行动决策规则的第一代理和第二代理,所述报酬提供单元
向所述第一代理提供根据规定的报酬定义的报酬,并且
向所述第二代理提供根据与所述规定的报酬定义相反的相反报酬定义的报酬,所述相反报酬定义在所述第二代理采取行动而引起用于所述第一代理的报酬减少的状况的情况下使所得到的报酬增加,并且在所述第二代理采取行动而增加用于所述第一代理的报酬的情况下使所得到的报酬减少。
2.根据权利要求1所述的信息处理装置,其中,所述报酬提供单元根据用户的操作来调整用于所述报酬的参数。
3.根据权利要求2所述的信息处理装置,还包括:
显示控制单元,执行使调整用于所述报酬的参数的GUI(图形用户界面)显示的显示控制。
4.根据权利要求2所述的信息处理装置,还包括:
发出控制单元,根据所述第一代理和所述第二代理的学习状态来控制警告的发出,所述警告提示调整用于所述报酬的参数。
5.根据权利要求4所述的信息处理装置,还包括:
确定单元,根据所述报酬的变化模式来确定所述学习状态。
6.根据权利要求4所述的信息处理装置,其中,在所述第一代理或所述第二代理学习失败的情况下以及在所述第一代理和所述第二代理学习成功的情况下发出所述警告。
7.一种信息处理方法,包括:
生成模拟真实世界的模拟器环境;以及
针对在所述模拟器环境中采取行动并且根据针对所述行动的报酬来学习行动决策规则的第一代理和第二代理,
向所述第一代理提供根据规定的报酬定义的报酬,并且
向所述第二代理提供根据与所述规定的报酬定义相反的相反报酬定义的报酬,所述相反报酬定义在所述第二代理采取行动而引起用于所述第一代理的报酬减少的状况的情况下使所得到的报酬增加,并且在所述第二代理采取行动而增加用于所述第一代理的报酬的情况下使所得到的报酬减少。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780075833.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于量子位读出的补偿脉冲
- 下一篇:用于个人自主车辆的商业运营的方法和设备