[发明专利]学习方法及记录介质在审

专利信息
申请号: 202010606260.9 申请日: 2020-06-29
公开(公告)号: CN112183766A 公开(公告)日: 2021-01-05
发明(设计)人: 冈田雅司 申请(专利权)人: 松下电器(美国)知识产权公司
主分类号: G06N20/20 分类号: G06N20/20;G06N3/04
代理公司: 永新专利商标代理有限公司 72002 代理人: 安香子
地址: 美国加*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 学习方法 记录 介质
【说明书】:

提供学习方法及记录介质,改善用来进行智能体的行动的控制的学习方法。使用基于模型的强化学习的智能体的行动的学习方法,取得表示智能体行动时的智能体的状态及行动的时间序列数据(S101),通过使用所取得的时间序列数据进行有监督学习而构建动态模型(S102),基于动态模型,通过作为变分分布而使用了混合模型的变分推断,导出智能体的行动序列的多个候选(S103),将从导出的多个候选中选择的一个候选作为智能体的行动序列输出(S104)。

技术领域

本发明涉及学习方法及记录介质。

背景技术

作为用来进行智能体的控制的学习方法,有采用考虑了不可靠性的动态模型的方法(参照非专利文献1)。这里,智能体(agent)是指对环境引起行动的行动主体。

非专利文献1:K.Chua,R.Calandra,R.McAllister,and S.Levine.“Deepreinforcement learning in a handful of trials using probabilistic dynamicsmodels.In NeurIPS,2018.”

但是,关于用来进行智能体的行动的控制的学习方法,有改善的余地。

发明内容

所以,本发明提供一种使智能体的动作改善的学习方法等。

有关本发明的一技术方案的学习方法,是使用基于模型的强化学习的、智能体的行动的学习方法,取得表示上述智能体行动时的上述智能体的状态及行动的时间序列数据;通过使用所取得的上述时间序列数据进行有监督学习,构建动态模型;基于上述动态模型,通过作为变分分布而使用了混合模型的变分推断,导出上述智能体的行动序列的多个候选;将从导出的上述多个候选中选择的一个候选作为上述智能体的行动序列来输出。

另外,这些包含性或具体的技术方案也可以由系统、装置、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质实现,也可以由系统、装置、集成电路、计算机程序及记录介质的任意的组合来实现。

发明效果

本发明的学习方法能够改善用来进行智能体的行动的控制的学习方法。

附图说明

图1是表示实施方式的学习装置的功能结构的框图。

图2是表示实施方式的智能体的状态和行动的时间序列的说明图。

图3是表示实施方式的变分(variation)分布的说明图。

图4是表示实施方式的推断部进行的变分推断的概念的说明图。

图5是表示关联技术中的推断部进行的变分推断的概念的说明图。

图6是将实施方式的推断部决定的多个候选与关联技术的情况比较而表示的说明图。

图7是表示实施方式的学习方法的流程图。

图8是将实施方式的学习方法中的累计报酬的随时间的变化与关联技术比较而表示的说明图。

图9是将实施方式的学习方法中的累计报酬的收敛值与关联技术比较而表示的说明图。

标号说明

10 学习装置

11 取得部

12 学习部

13 存储部

14 推断部

15 输出部

17 动态模型

20 智能体

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器(美国)知识产权公司,未经松下电器(美国)知识产权公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010606260.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top