[发明专利]信息处理设备、信息处理方法和程序有效
申请号: | 201210366351.5 | 申请日: | 2012-09-28 |
公开(公告)号: | CN103198358A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 小林由幸 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06N3/12 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 陈芳 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开涉及信息处理设备、信息处理方法和程序。提供一种信息处理设备,其包括:报酬估计器生成单元,其使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据来估计报酬值的报酬估计器,该历史数据包含表示代理的状态的状态数据、表示代理的行动的行动数据,以及表示该行动的报酬的报酬值;行动选择单元,其优选地选择不包含在行动历史数据中但具有高估计报酬值的行动;以及行动历史添加单元,其使代理执行选择的行动,并将针对该行动的状态数据和行动数据与该行动的报酬值相互关联地添加到行动历史数据。当一组状态数据、行动数据和报酬值被添加到该行动历史数据时,重新生成该报酬估计器。 | ||
搜索关键词: | 信息处理 设备 方法 程序 | ||
【主权项】:
一种信息处理设备,包括:报酬估计器生成单元,该报酬估计器生成单元使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值;行动选择单元,该行动选择单元从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且不包含在行动历史数据中的行动;以及行动历史添加单元,该行动历史添加单元使代理根据行动选择单元的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据,其中,当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成单元用于重新生成报酬估计器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210366351.5/,转载请声明来源钻瓜专利网。