[发明专利]策略搜索装置、方法及记录介质在审
申请号: | 201910388236.X | 申请日: | 2019-05-10 |
公开(公告)号: | CN110633802A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 寺本矢绘美;梁宇新;间濑正启;鲸井俊宏 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 72002 永新专利商标代理有限公司 | 代理人: | 安香子 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供在存在多样指标的环境中根据状况来搜索优选的策略的策略搜索装置、方法及记录介质。其中,执行将以下的一系列处理反复进行多次的情节:基于表示针对对象环境的状态的行动的价值的价值函数,选择行动,适用所选择的行动而模拟对象环境的状态转变,取得转变后的对象环境的状态和由第1指标表示的与所适用的行动对应的报酬,基于状态和报酬将价值函数更新。并且,储存第2指标满足规定的条件的情节;基于储存的情节对价值函数进行改善;反复进行从情节的执行到价值函数的改善的一系列的处理,直到满足规定的结束条件;提示基于得到的价值函数决定的策略。 | ||
搜索关键词: | 价值函数 对象环境 储存 报酬 策略搜索 结束条件 模拟对象 指标满足 状态转变 优选 搜索 提示 更新 | ||
【主权项】:
1.一种策略搜索装置,搜索规定的对象环境中的策略,其特征在于,具有:/n输入输出部,受理应提高的第1指标和与上述第1指标不同的第2指标的输入;/n模拟处理部,对上述对象环境适用行动而模拟上述对象环境的状态转变,作为模拟结果而计算转变后的上述对象环境的状态、以及由上述第1指标表示的与所适用的行动对应的报酬;以及/n策略搜索处理部,执行将以下的一系列处理反复进行多次的情节:基于表示针对上述对象环境的状态的行动的价值的价值函数,选择行动,适用所选择的行动而使上述模拟处理部模拟上述对象环境的状态转变,取得转变后的上述对象环境的状态和由上述第1指标表示的与所适用的行动对应的报酬,基于上述状态和上述报酬将上述价值函数更新;并且,上述策略搜索处理部储存上述第2指标满足规定的条件的情节,基于所储存的情节对上述价值函数进行改善,并反复进行从上述情节的执行到上述价值函数的改善为止的一系列的处理直到满足规定的结束条件,提示基于得到的上述价值函数决定的策略。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910388236.X/,转载请声明来源钻瓜专利网。