[发明专利]学习方法及记录介质在审

申请号：	202010606260.9	申请日：	2020-06-29
公开（公告）号：	CN112183766A	公开（公告）日：	2021-01-05
发明（设计）人：	冈田雅司	申请（专利权）人：	松下电器(美国)知识产权公司
主分类号：	G06N20/20	分类号：	G06N20/20;G06N3/04
代理公司：	永新专利商标代理有限公司 72002	代理人：	安香子
地址：	美国加***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	学习方法记录介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

提供学习方法及记录介质，改善用来进行智能体的行动的控制的学习方法。使用基于模型的强化学习的智能体的行动的学习方法，取得表示智能体行动时的智能体的状态及行动的时间序列数据(S101)，通过使用所取得的时间序列数据进行有监督学习而构建动态模型(S102)，基于动态模型，通过作为变分分布而使用了混合模型的变分推断，导出智能体的行动序列的多个候选(S103)，将从导出的多个候选中选择的一个候选作为智能体的行动序列输出(S104)。

技术领域

本发明涉及学习方法及记录介质。

背景技术

作为用来进行智能体的控制的学习方法，有采用考虑了不可靠性的动态模型的方法(参照非专利文献1)。这里，智能体(agent)是指对环境引起行动的行动主体。

非专利文献1：K.Chua，R.Calandra，R.McAllister，and S.Levine.“Deepreinforcement learning in a handful of trials using probabilistic dynamicsmodels.In NeurIPS，2018.”

但是，关于用来进行智能体的行动的控制的学习方法，有改善的余地。

发明内容

所以，本发明提供一种使智能体的动作改善的学习方法等。

有关本发明的一技术方案的学习方法，是使用基于模型的强化学习的、智能体的行动的学习方法，取得表示上述智能体行动时的上述智能体的状态及行动的时间序列数据；通过使用所取得的上述时间序列数据进行有监督学习，构建动态模型；基于上述动态模型，通过作为变分分布而使用了混合模型的变分推断，导出上述智能体的行动序列的多个候选；将从导出的上述多个候选中选择的一个候选作为上述智能体的行动序列来输出。

另外，这些包含性或具体的技术方案也可以由系统、装置、集成电路、计算机程序或计算机可读取的CD－ROM等记录介质实现，也可以由系统、装置、集成电路、计算机程序及记录介质的任意的组合来实现。

发明效果

本发明的学习方法能够改善用来进行智能体的行动的控制的学习方法。

附图说明

图1是表示实施方式的学习装置的功能结构的框图。

图2是表示实施方式的智能体的状态和行动的时间序列的说明图。

图3是表示实施方式的变分(variation)分布的说明图。

图4是表示实施方式的推断部进行的变分推断的概念的说明图。

图5是表示关联技术中的推断部进行的变分推断的概念的说明图。

图6是将实施方式的推断部决定的多个候选与关联技术的情况比较而表示的说明图。

图7是表示实施方式的学习方法的流程图。

图8是将实施方式的学习方法中的累计报酬的随时间的变化与关联技术比较而表示的说明图。