[发明专利]信息处理设备在审
申请号: | 201780018213.9 | 申请日: | 2017-01-06 |
公开(公告)号: | CN108885722A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 福井启 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;李彦丽 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 响应信息 信息处理设备 环境参数 学习单元 环境模型 机器学习 有效地实现 发送单元 生成单元 通信单元 真实世界 发送 学习 | ||
基于真实世界中的环境有效地实现控制学习。提供了一种信息处理设备,该信息处理设备包括:生成单元,其生成响应信息,该响应信息与基于环境参数生成的环境模型中的要被控制的物体有关;以及发送单元,其将响应信息和环境参数发送至学习单元,该学习单元执行与对要被控制的物体的控制有关的机器学习。此外,提供了一种信息处理设备,该信息处理设备包括:通信单元,其接收第一环境参数和响应信息,该响应信息与基于第一环境参数生成的环境模型中的要被控制的物体有关;以及学习单元,其使用接收到的第一环境参数和接收到的响应信息来执行与对要控制的物体的控制有关的机器学习。
技术领域
本公开内容涉及信息处理设备。
背景技术
近年来,模仿颅神经系统的机理的神经网络引起了关注。此外,一些报道已经提出了通过利用物理模拟器使神经网络执行控制学习。例如,非专利文献1公开了使用模拟器的游戏的控制学习结果。
引文列表
非专利文献
非专利文献1:深度思维技术和七个其他技术(DeepMind Technologies,andseven others),“Playing Atari with Deep Reinforcement Learning”,2015年11月9日,[在线],[2016年2月8日检索的],因特网<https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf>
发明内容
技术问题
然而,通过非专利文献1中公开的方法,难以使神经网络执行与真实世界匹配的控制学习。
因此,本公开内容提出了一种能够根据真实世界中的环境有效地实现控制学习的信息处理设备。
[问题的解决方案]
根据本公开内容,提供了一种信息处理设备,该信息处理设备包括:生成单元,其被配置成生成基于环境参数而生成的环境模型中的与控制对象有关的响应信息;以及发送单元,其被配置成将响应信息和环境参数发送至学习单元,所述学习单元执行与控制对象的控制有关的机器学习。
另外,根据本公开内容,提供了一种信息处理设备,该信息处理设备包括:通信单元,其被配置成接收基于第一环境参数而生成的环境模型中的与控制对象有关的响应信息、以及接收第一环境参数;以及学习单元,其被配置成使用接收到的响应信息和接收到的第一环境参数,执行与控制对象的控制有关的机器学习。
另外,根据本公开内容,提供了一种信息处理设备,该信息处理设备包括:环境获取单元,其被配置成获取与环境状态有关的环境参数;确定单元,其被配置成基于所获取的环境参数确定所述环境状态是否已经被学习;以及发送单元,其被配置成基于确定单元确定环境状态尚未被学习而发送环境参数。
提供了一种信息处理设备,该信息处理设备包括:接收单元,其被配置成接收与未学习的环境状态有关的环境参数;以及生成单元,其被配置成生成基于环境参数而生成的环境模型中的与第一控制对象的行为有关的数据。
发明的有益效果
如上所述,根据本公开内容,可以根据真实世界中的环境有效地实现控制学习。注意,上述效果不一定是限制性的。与以上效果一起或替代以上效果,可以实现本说明书中描述的效果中的任一效果或者可以从本说明书理解的其他效果。
附图说明
图1是示出根据本公开内容的环境模型的概况的图。
图2是根据本公开内容的概念图。
图3示出根据实施方式的系统配置示例。
图4是根据实施方式的每个部件的功能框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780018213.9/2.html,转载请声明来源钻瓜专利网。