[发明专利]用于自主驾驶应用的无监督学习代理有效
申请号: | 201810986094.2 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109460015B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | P·帕拉尼萨梅;U·P·穆达里戈 | 申请(专利权)人: | 通用汽车环球科技运作有限责任公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 邓雪萌;傅永霄 |
地址: | 美国密*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 自主 驾驶 应用 监督 学习 代理 | ||
提供了用于控制车辆的系统和方法。在一个实施例中,提供了一种包括训练自主驾驶代理的计算机实施方法,该方法包括以下步骤:由处理器使用神经网络从驾驶行为的演示中提取信息;将提取的信息传输到发生器模块;将与驾驶行为的演示相关联的真实环境状态传输到鉴别器模块;由处理器使用发生器模块从提取的信息中产生环境状态解译;由处理器训练鉴别器模块以更好地确定所产生的环境状态解译是否对应于真实环境状态,同时由处理器训练发生器模块以产生鉴别器确定对应于真实环境状态的改进的环境状态解译;并且由处理器使用从经过训练的发生器模块中产生的环境状态解译来恢复奖励图。
引言
本公开总体上涉及自主车辆,并且更具体地涉及用于自主车辆驾驶代理的无监督训练的系统和方法。
背景技术
本节提供与本公开有关的背景信息,该背景信息不一定是现有技术。
自主车辆是能够感测其环境并且以很少或不需要用户输入进行导航的车辆。自主车辆使用诸如雷达、激光雷达、图像传感器等感测装置来感测其环境。自主车辆系统进一步使用来自全球定位系统(GPS)技术、导航系统、车对车通信、车对基础设施技术和/或线控驱动系统的信息来对车辆进行导航。
车辆自动化已经被分类为从零(对应于全人为控制的非自动化)到五(对应于无人为控制的全自动化)的范围中的数值等级。各种自动驾驶员辅助系统(诸如巡航控制、自适应巡航控制以及停放辅助系统)对应于较低自动化等级,而真正的“无人驾驶”车辆对应于较高自动化等级。
驾驶车辆需要来自驾驶员的大量技能、经验以及感知。因此,必须训练自主代理以便能够匹配或者甚至超越人类的驾驶能力。
因此,与人类驾驶员相比,期望获得训练自主驾驶代理以进行等效或改进的驾驶决策的方法。另外,期望获得训练自主驾驶代理的方法,该方法在很大程度上是无监督的,并且不需要对训练数据进行大量标记。还期望恢复关于为什么自主驾驶代理响应于特定环境状态而选择特定驾驶动作的推理(潜在动机)。另外,从以下结合附图和前面的技术领域及背景技术进行的实施方式和所附权利要求书中将更清楚地明白本发明的其它期望特征和特性。
发明内容
提供了用于控制车辆的系统和方法。
在一个实施例中,提供了一种训练自主驾驶代理的计算机实施方法,该方法包括以下步骤:由处理器使用神经网络从驾驶行为的演示中提取信息;由处理器从提取的信息中恢复奖励图;将提取的信息传输到发生器模块;将与驾驶行为的演示相关联的真实环境状态和恢复的奖励图传输到鉴别器模块;由处理器使用发生器模块从提取的信息中产生环境状态解译;由处理器训练鉴别器模块以更好地确定所产生的环境状态解译是否对应于真实环境状态,同时由处理器训练发生器模块以产生该鉴别器确定对应于真实环境状态的改进的环境状态解译。
在一个实施例中,该方法进一步包括使用显示器显示改进的环境状态解译。
在一个实施例中,由发生器产生的改进的环境状态用于更新奖励图。
在实施例中,其中驾驶行为的演示取自人类驱动的数据日志(例如,存储在计算机存储器中),例如取自不同的驾驶环境和/或具有不同的驾驶目标。
在一个实施例中,使用卷积神经网络提取所提取的信息。在一个实施例中,卷积神经网络是深度卷积神经网络。
在一个实施例中,经由深度逆强化学习模块使用深度逆强化学习来恢复奖励函数。
在一个实施例中,使用损失或成本梯度函数来执行鉴别器模块的训练。
在一个实施例中,使用损失或成本梯度函数来执行发生器模块的训练。
在一个实施例中,该方法进一步包括将提取的信息传输到鉴别器模块的步骤,并且鉴别器模块配置为确定所产生的环境状态解译是否对应于提取的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于通用汽车环球科技运作有限责任公司,未经通用汽车环球科技运作有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810986094.2/2.html,转载请声明来源钻瓜专利网。