[发明专利]策略搜索装置、方法及记录介质在审
申请号: | 201910388236.X | 申请日: | 2019-05-10 |
公开(公告)号: | CN110633802A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 寺本矢绘美;梁宇新;间濑正启;鲸井俊宏 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 72002 永新专利商标代理有限公司 | 代理人: | 安香子 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 价值函数 对象环境 储存 报酬 策略搜索 结束条件 模拟对象 指标满足 状态转变 优选 搜索 提示 更新 | ||
1.一种策略搜索装置,搜索规定的对象环境中的策略,其特征在于,具有:
输入输出部,受理应提高的第1指标和与上述第1指标不同的第2指标的输入;
模拟处理部,对上述对象环境适用行动而模拟上述对象环境的状态转变,作为模拟结果而计算转变后的上述对象环境的状态、以及由上述第1指标表示的与所适用的行动对应的报酬;以及
策略搜索处理部,执行将以下的一系列处理反复进行多次的情节:基于表示针对上述对象环境的状态的行动的价值的价值函数,选择行动,适用所选择的行动而使上述模拟处理部模拟上述对象环境的状态转变,取得转变后的上述对象环境的状态和由上述第1指标表示的与所适用的行动对应的报酬,基于上述状态和上述报酬将上述价值函数更新;并且,上述策略搜索处理部储存上述第2指标满足规定的条件的情节,基于所储存的情节对上述价值函数进行改善,并反复进行从上述情节的执行到上述价值函数的改善为止的一系列的处理直到满足规定的结束条件,提示基于得到的上述价值函数决定的策略。
2.如权利要求1所述的策略搜索装置,其特征在于,
上述策略搜索处理部预先设定有根据第1指标计算报酬的报酬计算函数,基于上述输入输出部受理了输入的第1指标,选择上述报酬计算函数。
3.如权利要求1所述的策略搜索装置,其特征在于,
上述输入输出部还受理多个上述第2指标的权重的输入;
上述策略搜索处理部以将权重较大的第2指标比权重较小的第2指标更优先地维持为良好的值的方式选择情节并储存。
4.如权利要求1所述的策略搜索装置,其特征在于,
上述策略搜索处理部计算反复执行的多个情节中的上述第1指标与上述第2指标的相关系数,在上述相关系数为负的情况下,提示警告。
5.如权利要求4所述的策略搜索装置,其特征在于,
上述策略搜索处理部与通过上述情节的执行而进行的强化学习并行地计算上述相关系数,在判断为上述相关系数为负的阶段,结束上述强化学习。
6.如权利要求1所述的策略搜索装置,其特征在于,
上述策略搜索处理部在由上述输入输出部受理了输入的第1指标是在过去的策略搜索中作为第2指标的指标的情况下,使用在上述过去的策略搜索时得到的价值函数用作此次策略搜索中的价值函数的初始值。
7.一种策略搜索方法,用于搜索规定的对象环境中的策略,其特征在于,
计算机执行以下处理:
受理应提高的第1指标和与上述第1指标不同的第2指标的输入;
执行将以下的一系列处理反复进行多次的情节:基于表示针对上述对象环境的状态的行动的价值的价值函数,选择行动,适用所选择的行动而模拟上述对象环境的状态转变,取得作为模拟结果的、转变后的上述对象环境的状态和由上述第1指标表示的与所适用的行动对应的报酬,基于上述状态和上述报酬将上述价值函数更新;
储存上述第2指标满足规定的条件的情节;
基于所储存的情节,对上述价值函数进行改善;
反复进行从上述情节的执行到上述价值函数的改善为止的一系列的处理,直到满足规定的结束条件;
提示基于得到的上述价值函数决定的策略。
8.一种记录介质,记录有用于搜索规定的对象环境中的策略的策略搜索程序,其特征在于,
所述策略搜索程序使计算机执行以下处理:
受理应提高的第1指标和与上述第1指标不同的第2指标的输入;
执行将以下的一系列处理反复进行多次的情节:基于表示针对上述对象环境的状态的行动的价值的价值函数,选择行动,适用所选择的行动而模拟上述对象环境的状态转变,取得作为模拟结果的、转变后的上述对象环境的状态和由上述第1指标表示的与所适用的行动对应的报酬,基于上述状态和上述报酬将上述价值函数更新;
储存上述第2指标满足规定的条件的情节;
基于所储存的情节,对上述价值函数进行改善;
反复进行从上述情节的执行到上述价值函数的改善为止的一系列的处理,直到满足规定的结束条件;
提示基于得到的上述价值函数决定的策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910388236.X/1.html,转载请声明来源钻瓜专利网。