[发明专利]策略搜索装置、方法及记录介质在审
申请号: | 201910388236.X | 申请日: | 2019-05-10 |
公开(公告)号: | CN110633802A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 寺本矢绘美;梁宇新;间濑正启;鲸井俊宏 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 72002 永新专利商标代理有限公司 | 代理人: | 安香子 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 价值函数 对象环境 储存 报酬 策略搜索 结束条件 模拟对象 指标满足 状态转变 优选 搜索 提示 更新 | ||
本发明提供在存在多样指标的环境中根据状况来搜索优选的策略的策略搜索装置、方法及记录介质。其中,执行将以下的一系列处理反复进行多次的情节:基于表示针对对象环境的状态的行动的价值的价值函数,选择行动,适用所选择的行动而模拟对象环境的状态转变,取得转变后的对象环境的状态和由第1指标表示的与所适用的行动对应的报酬,基于状态和报酬将价值函数更新。并且,储存第2指标满足规定的条件的情节;基于储存的情节对价值函数进行改善;反复进行从情节的执行到价值函数的改善的一系列的处理,直到满足规定的结束条件;提示基于得到的价值函数决定的策略。
技术领域
本发明涉及根据状况搜索有效的策略的技术。
背景技术
在各种领域中,利用机械学习、根据状况搜索并提示有效的策略的技术受到关注。在专利文献1-4中,公开了使用强化学习的方法来学习使想要提高的指标(以下也称作“KPI”)提高的有效策略的技术。KPI是Key Performance Indicator(关键绩效指标)的简写。
专利文献1所公开的技术涉及如下方法:作为进行强化学习时的环境模型而使用已经经历的事件和行动的对的集合,由此降低强化学习的计算成本。
专利文献2所公开的技术涉及如下方法:在强化学习中使用的价值函数的神经网络下的近似中,即使输入变量是许多个,也能够高精度且低成本地对神经网络的权重进行学习。
专利文献3所公开的技术涉及如下方法:在用来在汽车的驾驶时提示支援驾驶者的信息的系统中,利用强化学习制作良好驾驶的行动指南,此时根据周边环境的变化对可采取的行动进行限定,由此有效地开展强化学习。
专利文献4所公开的技术涉及如下方法:在强化学习中,利用相关分析来缩减接下来应采取的行动的候选,有效地学习机器人控制的方法。
专利文献1:日本特开2010-73200号公报
专利文献2:日本特开2009-64216号公报
专利文献3:日本特开2004-348394号公报
专利文献4:日本特开2018-24036号公报
提出了利用最优解搜索及预测等技术向人提示与状况匹配的有效的行动来支援人的意思决定的机制。在最优解搜索中,表示最优性的数值基本上必须限定于1个。但是,实际上应注意的KPI是多个,或想要重视的KPI因人而异的情况较多。但是,没有与像这样按每个用户而嗜好不同的多个KPI对应地搜索有效的行动的方法。
发明内容
本发明的目的是提供一种在存在多样指标的环境中根据状况而搜索适当的策略的技术。
本发明的1个技术方案的策略搜索装置,搜索规定的对象环境中的策略,其特征在于,具有:输入输出部,受理应提高的第1指标和与上述第1指标不同的第2指标的输入;模拟处理部,对上述对象环境适用行动而模拟上述对象环境的状态转变,作为模拟结果,计算转变后的上述对象环境的状态、和由上述第1指标表示的与所适用的行动对应的报酬;以及策略搜索处理部,执行将以下的一系列处理反复进行多次的情节:基于表示针对上述对象环境的状态的行动的价值的价值函数,选择行动,适用所选择的行动而使上述模拟处理部模拟上述对象环境的状态转变,取得转变后的上述对象环境的状态和由上述第1指标表示的与所适用的行动对应的报酬,基于上述状态和上述报酬将上述价值函数更新;并且,上述策略搜索处理部储存上述第2指标满足规定的条件的情节,基于所储存的情节对上述价值函数进行改善,并反复进行从上述情节的执行到上述价值函数的改善为止的一系列的处理直到满足规定的结束条件,提示基于得到的上述价值函数决定的策略。
发明效果
根据本发明的1个技术方案,指定应提高的第1指标和与其不同的第2指标,在价值函数的学习中重视该第2指标来进行策略的搜索,所以在存在多样指标的环境中能够根据状况选择优选的策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910388236.X/2.html,转载请声明来源钻瓜专利网。