[发明专利]学习装置、学习方法及存储介质有效
申请号: | 201910799040.X | 申请日: | 2019-08-27 |
公开(公告)号: | CN110874642B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 后藤建 | 申请(专利权)人: | 本田技研工业株式会社 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 孙尚昆 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学习 装置 学习方法 存储 介质 | ||
提供一种能够进行更加灵活的学习的学习装置、学习方法及存储介质。学习装置具备:规划器,其生成表示车辆的行动的信息;以及报酬导出部,其导出对包括反馈信息的多个被评价信息分别进行评价而得到的多个单独报酬,基于多个所述单独报酬,导出针对所述车辆的行动的报酬,所述反馈信息通过将基于所述表示车辆的行动的信息得到的信息向模拟器或实际环境输入而从所述模拟器或实际环境得到,所述规划器进行使由所述报酬导出部导出的报酬最佳化的强化学习。
技术领域
本发明涉及学习装置、学习方法及存储介质。
背景技术
近年来,在车辆自主行驶的自动驾驶的领域,做出了要通过AI(人工智能)·机械学习来决定行驶规划的尝试。关于基于观测值决定行动并计算基于来自实际环境、模拟器的反馈得到的报酬而使模型参数最佳化的强化学习,也正在展开研究及实用化。与此相关联地,公开了通过强化学习生成用于使车辆的状态变更的操作量的方法(日本特开2007-65929号公报)。
在将强化学习应用于自动驾驶的情况下,可以设想应用场景不仅在车辆的操作量方面还在各种技术性要素方面扩展,但是,在以往的技术中,强化学习的应用目标是限定性的。因此,关于自动驾驶车辆的行动计划部分,存在无法进行灵活的学习的情况。
发明内容
本发明是考虑这样的情形而完成的,目的之一在于,提供能够进行更加灵活的学习的学习装置、学习方法及存储介质。
本发明的学习装置、学习方法或存储介质,采用了以下的结构。
(1):本发明的一方案的学习装置,其具备:规划器,其生成表示车辆的行动的信息;以及报酬导出部,其导出对包括反馈信息的多个被评价信息分别进行评价而得到的多个单独报酬,基于多个所述单独报酬,导出针对所述车辆的行动的报酬,所述反馈信息通过将基于所述表示车辆的行动的信息得到的信息向模拟器或实际环境输入而从所述模拟器或实际环境得到,所述规划器进行使由所述报酬导出部导出的报酬最佳化的强化学习。
(2):在上述(1)的方案中,所述报酬导出部对多个所述被评价信息中的至少一部分分别应用评价特性互不相同的规则,由此导出所述单独报酬。
(3):在上述(2)的方案中,所述报酬导出部对多个所述被评价信息中的至少一部分应用相对于与目标值的关系分布的单独报酬的分布形状互不相同的多个报酬函数中的任一个,由此导出所述单独报酬。
(4):在上述(1)的方案中,所述报酬导出部将多个所述单独报酬彼此相乘,由此计算针对所述车辆的行动的报酬。
(5):在上述(1)的方案中,所述反馈信息包括所述车辆的速度、加速度、横向位置中的至少一部分。
(6):在上述(1)的方案中,所述被评价信息包括基于所述车辆的行动导出的风险。
(7):在上述(3)的方案中,多个所述报酬函数包括如下的报酬函数:当输入值与目标值一致时返回规定值,输入值与目标值的差量的绝对值越大则返回越小的值。
(8):在上述(3)的方案中,多个所述报酬函数包括如下的报酬函数:当输入值与目标值一致时返回规定值,输入值与目标值的差量的绝对值越大则返回越小的值,不过,使输入值超过目标值侧的单独报酬相对于输入值与目标值的差量的降低程度比输入值低于目标值侧的单独报酬相对于输入值与目标值的差量的降低程度大。
(9):在上述(3)的方案中,多个所述报酬函数包括如下的报酬函数:若输入值为目标值以上则返回规定值,在输入值低于目标值的情况下,输入值与目标值的差量的绝对值越大则返回越小的值。
(10):在上述(3)的方案中,多个所述报酬函数包括如下的报酬函数:若输入值为目标值以下则返回规定值,在输入值高于目标值的情况下,输入值与目标值的差量的绝对值越大则返回越小的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于本田技研工业株式会社,未经本田技研工业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910799040.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:学习装置、模拟系统、学习方法及存储介质
- 下一篇:一种耐火的锂离子电池