[发明专利]车辆用控制装置、控制系统、学习装置和方法及存储介质有效
申请号: | 202011090423.9 | 申请日: | 2020-10-13 |
公开(公告)号: | CN112682204B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 桥本洋介;片山章弘;大城裕太;杉江和纪;冈尚哉 | 申请(专利权)人: | 丰田自动车株式会社 |
主分类号: | F02D45/00 | 分类号: | F02D45/00;F02D29/02;G06N20/00 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 张洁;段承恩 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 车辆 控制 装置 控制系统 学习 方法 存储 介质 | ||
1.一种车辆用控制装置,其具备执行装置以及存储装置,
所述存储装置存储关系规定数据,所述关系规定数据规定车辆的状态与行动变量的关系,所述行动变量是与搭载于所述车辆的电子设备的操作有关的变量,
所述执行装置构成为执行:
状态取得处理,该状态取得处理基于每次的传感器的检测值,取得每次的所述车辆的状态;
操作处理,该操作处理基于所述行动变量的值,操作所述电子设备,所述行动变量的值由所述关系规定数据和通过所述状态取得处理所取得的所述车辆的状态来确定;
奖励计算处理,该奖励计算处理基于通过所述状态取得处理所取得的所述车辆的状态,在所述车辆的特性满足基准的情况下,与所述车辆的特性不满足所述基准的情况相比,给予较大的奖励;
更新处理,该更新处理将通过所述状态取得处理所取得的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与该操作对应的所述奖励作为向预先确定的更新映射的输入,更新所述关系规定数据;
劣化变量取得处理,该劣化变量取得处理取得表示所述车辆的劣化程度的变量、即劣化变量;以及
变更处理,该变更处理在所述车辆的劣化程度为预定程度以上的情况下,与所述劣化程度低于预定程度的情况相比,将收益非最大化范围向进行扩大侧变更,所述收益非最大化范围是所述操作处理采用使关于所述奖励的期待收益最大化的值以外的值作为所述行动变量的范围,
所述更新映射输出以使按照所述关系规定数据来操作所述电子设备的情况下的所述期待收益增加的方式进行了更新的所述关系规定数据,
所述劣化变量也是将根据与时间的经过具有正相关的量来对所述劣化程度低于预定程度的情况进行细分的变量,
所述变更处理是随着所述时间的经过而将所述收益非最大化范围从第1范围经由第2范围变为第3范围的处理,
所述第1范围是比所述第2范围和所述第3范围大的范围,
所述第3范围是比所述第2范围大的范围,
将所述范围向扩大该范围侧变更的所述变更处理是在所述车辆的劣化程度为预定程度以上的情况下将所述收益非最大化范围向从所述第2范围扩大为所述第3范围侧进行变更的处理。
2.根据权利要求1所述的车辆用控制装置,
所述变更处理包括将所述收益非最大化范围从零扩大为比零大的范围的处理。
3.根据权利要求1或2所述的车辆用控制装置,
使计算机执行所述状态取得处理、所述操作处理、所述奖励计算处理、所述更新处理、所述劣化变量取得处理以及所述变更处理。
4.一种车辆用控制系统,其具备权利要求1或2所述的车辆用控制装置中的所述执行装置以及所述存储装置,
所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置,
所述第1执行装置构成为至少执行所述状态取得处理和所述操作处理,
所述第2执行装置构成为至少执行所述更新处理。
5.根据权利要求4所述的车辆用控制系统,
所述第1执行装置被包括在车辆用控制装置中。
6.根据权利要求4所述的车辆用控制系统,
所述第2执行装置被包括在车辆用学习装置中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于丰田自动车株式会社,未经丰田自动车株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011090423.9/1.html,转载请声明来源钻瓜专利网。