[发明专利]策略生成装置及车辆有效
申请号: | 201780091112.4 | 申请日: | 2017-06-02 |
公开(公告)号: | CN110663073B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 喜住祐纪 | 申请(专利权)人: | 本田技研工业株式会社 |
主分类号: | G08G1/16 | 分类号: | G08G1/16;B60W30/10 |
代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 吴大建;霍玉娟 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 策略 生成 装置 车辆 | ||
生成用于决定车辆的自动驾驶中的轨道的策略的装置具备报酬推定器以及处理部,该处理部以使通过将车辆的周围的状况和车辆的行动输入到报酬推定器而得到的报酬的期待值变高的方式生成策略。报酬基于由规定的驾驶员进行的实际的行动来更新。被输入到报酬推定器的车辆的行动基于策略来更新。
技术领域
本发明涉及策略生成装置以及车辆。
背景技术
人工智能相关技术已被利用于驾驶辅助、自动驾驶。在专利文献1中,记载了利用基于熟练驾驶员的注视行为模型的神经网络,根据对象物的配置图案提取高危险度对象物的技术。
现有技术文献
专利文献
专利文献1:日本特开2008-230296号公报
发明内容
发明要解决的问题
在专利文献1中,仅将提取出的高危险度对象目标提示给驾驶员,不用于车辆的行驶控制。能够使用高危险度对象目标来规定在自动驾驶中应被抑制的行动(例如,向这样的目标接近)。但是,仅通过避免应被抑制的行动来模仿人类驾驶员、特别是驾驶熟练者进行的自然的行驶是困难的。本发明的一个方面的目的在于,提供一种用于生成对人类驾驶员进行的行驶进行模仿的策略的技术。
解决问题的手段
根据一部分的实施方式,提供生成用于决定车辆的自动驾驶中的轨道的策略的装置,其特征在于,具有报酬推定器以及处理部,该处理部以使通过将车辆的周围的状况和上述车辆的行动输入到上述报酬推定器而得到的报酬的期待值变高的方式生成策略,上述处理部通过强化学习而生成中间策略,上述强化学习包括通过针对周围的状况应用暂定策略来决定车辆采取的行动、通过将上述周围的状况和上述行动输入到上述报酬推定器来得到报酬的期待值、以及对上述暂定策略进行更新直至上述报酬的期待值超过规定的阈值,通过针对基于规定的驾驶员的实际的周围的状况应用上述中间策略,决定车辆采取的行动,判定通过应用上述中间策略而决定的行动与由上述规定的驾驶员进行的实际的行动之间的误差是否为阈值以下,在上述误差大于上述阈值的情况下,更新上述报酬推定器的报酬,利用具有上述更新后的报酬的上述报酬推定器再次决定上述中间策略,在上述误差为上述阈值以下的情况下,将上述中间策略设为上述策略。
发明效果
根据本发明,提供一种用于生成对人类驾驶员进行的行驶进行模仿的策略的技术。
通过参照附图的以下的说明使本发明的其他特征及优点变得明了。在附图中,对相同或同样的结构标注相同的附图标记。
附图说明
附图包含于说明书中且构成其一部分,表示本发明的实施方式并与其记述一起用于说明本发明的原理。
图1是对一部分实施方式的车辆的结构例进行说明的图。
图2是对一部分实施方式的生成策略的装置的结构例进行说明的图。
图3是对一部分实施方式的生成策略的方法的例子进行说明的图。
具体实施方式
以下,参照附图对本发明的实施方式进行说明。在各种实施方式中,对相同的要素标注相同的附图标记,并省略重复的说明。另外,各实施方式能够适当变更、组合。
图1是本发明的一个实施方式所涉及的车辆用控制装置的框图,对车辆1进行控制。在图1中,以俯视图和侧视图表示车辆1的概要。作为一个例子,车辆1为轿车型的四轮乘用车。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于本田技研工业株式会社,未经本田技研工业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780091112.4/2.html,转载请声明来源钻瓜专利网。