[发明专利]信息处理设备、信息处理方法和程序有效
申请号: | 201210366351.5 | 申请日: | 2012-09-28 |
公开(公告)号: | CN103198358A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 小林由幸 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06N3/12 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 陈芳 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 设备 方法 程序 | ||
1.一种信息处理设备,包括:
报酬估计器生成单元,该报酬估计器生成单元使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值;
行动选择单元,该行动选择单元从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且不包含在行动历史数据中的行动;以及
行动历史添加单元,该行动历史添加单元使代理根据行动选择单元的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据,
其中,当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成单元用于重新生成报酬估计器。
2.根据权利要求1所述的信息处理设备,
其中,行动选择单元优先选择具有使用报酬估计器估计的高报酬值、对于报酬值具有高估计误差并且不包含在行动历史数据中的行动。
3.根据权利要求1所述的信息处理设备,
其中,报酬估计器生成单元包括:
基本函数生成单元,该基本函数生成单元通过组合多个处理函数来生成多个基本函数;
特征量向量计算单元,该特征量向量计算单元通过将包含在行动历史数据中的状态数据和行动数据输入到所述多个基本函数中来计算特征量向量;以及
估计函数计算单元,该估计函数计算单元根据回归/判别学习来计算估计函数,该估计函数从特征量向量估计包含在行动历史数据中的报酬值,
其中,报酬值估计器包括多个基本函数和估计函数。
4.根据权利要求3所述的信息处理设备,
其中,当一组状态数据、行动数据和报酬值已经被添加到行动历史数据时,特征量向量计算单元用于针对包含在行动历史数据中的所有状态数据和行动数据计算特征量向量,并且
信息处理设备还包括分布调整单元,该分布调整单元对包含在行动历史数据中的各组状态数据、行动数据和报酬值进行采样,从而使得在特征量空间中由特征量向量指示的坐标点的分布接近特定分布。
5.根据权利要求3所述的信息处理设备,
其中,当一组状态数据、行动数据和报酬值已经被添加到行动历史数据时,特征量向量计算单元用于针对包含在行动历史数据中的所有状态数据和行动数据计算特征量向量,并且
信息处理设备还包括分布调整单元,该分布调整单元针对包含在行动历史数据中的各组状态数据、行动数据和报酬值设置权重,从而使得在特征量空间中由特征量向量指示的坐标点的分布接近特定分布。
6.根据权利要求4所述的信息处理设备,
其中,分布调整单元针对包含在行动历史数据中的各组状态数据、行动数据和报酬值设置权重,从而使得在采样后剩余的针对各组状态数据、行动数据和报酬值的在特征量空间中由特征量向量指示的坐标点的分布接近特定分布。
7.根据权利要求3所述的信息处理设备,
其中,基本函数生成单元基于遗传算法更新基本函数,
当基本函数已经被更新时,特征量向量计算单元用于将状态数据和行动数据输入到更新的基本函数中,以计算特征量向量,并且
响应于使用更新的基本函数计算的特征量向量的输入,估计函数计算单元计算估计报酬值的估计函数。
8.一种信息处理设备,包括:
报酬估计器生成单元,该报酬估计器生成单元使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值;
行动选择单元,该行动选择单元从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且其报酬值具有大估计误差的行动;以及
行动历史添加单元,该行动历史添加单元使代理根据行动选择单元的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据,
其中,当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成单元用于重新生成报酬估计器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210366351.5/1.html,转载请声明来源钻瓜专利网。