[发明专利]学习装置、模拟系统、学习方法及存储介质有效
申请号: | 201910799036.3 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110871811B | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 后藤建 | 申请(专利权)人: | 本田技研工业株式会社 |
主分类号: | B60W50/00 | 分类号: | B60W50/00 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 孙尚昆 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学习 装置 模拟 系统 学习方法 存储 介质 | ||
提供能够在更加接近实际空间的模拟环境下进行学习的学习装置、模拟系统、学习方法及存储介质。学习装置具备多个单独学习部,其中,各个单独学习部具备:规划器,其生成规定与自身对应的动作主体的动作的信息;以及报酬导出部,其导出对包括反馈信息的被评价信息进行评价而得到的报酬,所述反馈信息通过将基于规定所述动作主体的动作的信息得到的信息向模拟器输入而从所述模拟器得到,所述规划器进行基于由所述报酬导出部导出的报酬的强化学习,在所述多个单独学习部中的至少两个中,所述报酬导出部导出的报酬被最大化的动作不同。
技术领域
本发明涉及学习装置、模拟系统、学习方法及存储介质。
背景技术
近年来,在车辆自主行驶的自动驾驶的领域,做出了通过AI(人工智能)·机械学习来决定行驶规划的尝试。关于基于观测值决定行动并计算基于来自实际环境、模拟器的反馈得到的报酬而使模型参数最佳化的强化学习,也正在展开研究及实用化。与此相关联地,公开了通过强化学习生成用于使车辆的状态变更的操作量的方法(日本特开2007-65929号公报)。
发明内容
在强化学习中,存在在模拟器上设想多个动作主体进行动作的环境的情况。在以往的技术中,没有对用于分别规定多个动作主体的动作的架构充分进行研究,存在无法在接近实际空间的模拟环境下进行学习的情况。
本发明是考虑这样的情形而完成的,其目的之一在于,提供能够在更加接近实际空间的模拟环境下进行学习的学习装置、模拟系统、学习方法及存储介质。
本发明的学习装置、学习方法或存储介质采用了以下的结构。
(1):本发明的一方案的学习装置具备分别与动作主体建立了对应关系的多个单独学习部,其中,各个单独学习部具备:规划器,其生成规定与自身对应的动作主体的动作的信息;以及报酬导出部,其导出对包括反馈信息的被评价信息进行评价而得到的报酬,所述反馈信息通过将基于规定所述动作主体的动作的信息得到的信息向模拟器输入而从所述模拟器得到,所述规划器进行基于由所述报酬导出部导出的报酬的强化学习,在所述多个单独学习部中的至少两个中,所述报酬导出部导出的报酬被最大化的所述动作主体的动作不同。
(2):在上述(1)的方案中,在所述多个单独学习部中的至少两个中,成为所述规划器生成信息的前提的所述动作主体的动作特性不同。
(3):在上述(1)的方案中,在所述多个单独学习部中的至少两个中,所述报酬导出部对所述被评价信息进行评价的规则不同。
(4):在上述(1)的方案中,所述动作是指移动。
(5):本发明的另一方案的模拟系统,其具备上述(1)的方案的学习装置和所述模拟器。
(6):本发明的另一方案的学习方法,由计算机作为分别与动作主体建立了对应关系的多个单独学习部而发挥功能,各个单独学习部进行如下处理:生成规定与自身对应的动作主体的动作的信息;导出对包括反馈信息的被评价信息进行评价而得到的报酬,所述反馈信息通过将基于规定所述动作主体的动作的信息得到的信息向模拟器输入而从所述模拟器得到;以及进行基于导出的所述报酬的强化学习,在所述多个单独学习部中的至少两个中,所述报酬被最大化的所述动作主体的动作不同。
(7):本发明的另一方案的存储介质存储有如下的程序,所述程序使计算机作为分别与动作主体建立了对应关系的多个单独学习部而发挥功能,各个单独学习部进行如下处理:生成规定与自身对应的动作主体的动作的信息;导出对包括反馈信息的被评价信息进行评价而得到的报酬,所述反馈信息通过将基于规定所述动作主体的动作的信息得到的信息向模拟器输入而从所述模拟器得到;以及进行基于导出的所述报酬的强化学习,在所述多个单独学习部中的至少两个中,所述报酬被最大化的所述动作主体的动作不同。
发明效果
根据上述(1)~(7)的方案,能够在更加接近实际空间的模拟环境下进行学习。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于本田技研工业株式会社,未经本田技研工业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910799036.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于超声导航的系统和方法
- 下一篇:学习装置、学习方法及存储介质