[发明专利]用于自主驾驶应用的无监督学习代理有效
申请号: | 201810986094.2 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109460015B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | P·帕拉尼萨梅;U·P·穆达里戈 | 申请(专利权)人: | 通用汽车环球科技运作有限责任公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 邓雪萌;傅永霄 |
地址: | 美国密*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 自主 驾驶 应用 监督 学习 代理 | ||
1.一种训练自主驾驶代理的计算机实施方法,所述方法包括以下步骤:
由处理器使用神经网络从驾驶行为的演示中提取信息;
由处理器从所述提取的信息中恢复奖励图;将所述提取的信息传输到发生器模块;
将与驾驶行为的所述演示相关联的真实环境状态和所述恢复的奖励图传输到鉴别器模块;
由处理器使用所述发生器模块从所述提取的信息中产生环境状态解译;
由处理器训练所述鉴别器模块以更好地确定所产生的环境状态解译是否对应于所述真实环境状态,同时由处理器训练所述发生器模块以产生所述鉴别器确定对应于所述真实环境状态的改进的环境状态解译,
其中,所述鉴别器模块使用鉴别器函数将由发生器模块产生的所产生的环境状态解译与真实环境状态信息进行比较,如果鉴别器模块的输出是所产生的环境解译不对应于真实环境状态,则鉴别器模块拒绝所产生的环境状态解译,然后,发生器模块基于该拒绝来学习,并且因此产生改进的环境状态解译,其包括关于拒绝的环境状态解译的扰动,其中,改进的环境状态解译的产生包括蒙特卡罗式过程以产生扰动的改进的环境状态解译,
当发生器模块的发生器函数被更新到大多数所产生的环境解译“通过”鉴别器模块的鉴别器函数测试的精确水平时,然后暂停发生器函数的更新;然后,通过使用另一个损失或成本函数来迭代地更新鉴别器模块的鉴别器函数,使得鉴别器函数更可能正确地确定所产生的环境解译与真实环境状态相关;当鉴别器函数被更新/优化到某个精度水平时,暂停鉴别器函数的更新,然后基于改进的鉴别器函数来恢复发生器函数的更新。
2.根据权利要求1所述的方法,其中使用卷积神经网络提取所述提取的信息。
3.根据权利要求1所述的方法,其中经由深度逆强化学习模块使用深度逆强化学习来恢复奖励函数。
4.根据权利要求1所述的方法,其中使用损失或成本梯度函数来执行所述鉴别器模块的训练。
5.根据权利要求1所述的方法,其中使用损失或成本梯度函数来执行所述发生器模块的训练。
6.根据权利要求1所述的方法,其中传感器包括光学相机、LIDAR系统和/或RADAR系统。
7.一种用于训练自主驾驶代理的系统,所述系统包括:
神经网络,其配置为从驾驶行为的演示中提取信息;
深度逆强化学习模块,其配置为从所述提取的信息中恢复奖励图;
发生器模块,其配置为基于所述提取的信息来产生环境状态解译;以及
鉴别器模块,其配置为至少部分地使用所恢复的奖励图来确定所产生的环境状态解译是否对应于与所述提取的信息相关联的真实环境状态,
其中,所述鉴别器模块使用鉴别器函数将由发生器模块产生的所产生的环境状态解译与真实环境状态信息进行比较,如果鉴别器模块的输出是所产生的环境解译不对应于真实环境状态,则鉴别器模块拒绝所产生的环境状态解译,然后,发生器模块基于该拒绝来学习,并且因此产生改进的环境状态解译,其包括关于拒绝的环境状态解译的扰动,其中,改进的环境状态解译的产生包括蒙特卡罗式过程以产生扰动的改进的环境状态解译,
当发生器模块的发生器函数被更新到大多数所产生的环境解译“通过”鉴别器模块的鉴别器函数测试的精确水平时,然后暂停发生器函数的更新;然后,通过使用另一个损失或成本函数来迭代地更新鉴别器模块的鉴别器函数,使得鉴别器函数更可能正确地确定所产生的环境解译与真实环境状态相关;当鉴别器函数被更新/优化到某个精度水平时,暂停鉴别器函数的更新,然后基于改进的鉴别器函数来恢复发生器函数的更新。
8.根据权利要求7所述的系统,其中所述鉴别器模块配置为基于损失或成本函数来迭代地改进对所产生的环境状态解译是否对应于真实环境状态的确定。
9.根据权利要求8所述的系统,其中所述发生器模块配置为迭代地改进所产生的环境状态解译的形式,使得所述鉴别器模块将基于损失或成本函数来确定所产生的环境状态解译对应于真实环境状态。
10.一种车辆,包括:
传感器,其配置为感测与所述车辆周围的环境状态的特征有关的信息;
神经网络,其配置为从所述传感器信息中提取信息;
经过训练的自主驾驶代理,其配置为基于所述提取的信息来确定驾驶动作的策略;以及
经过训练的发生器模块,其配置为基于所述提取的信息来产生环境状态解译,
经过训练的鉴别器模块,其配置为至少部分地使用所恢复的奖励图来确定所产生的环境状态解译是否对应于与所述提取的信息相关联的真实环境状态,
其中,所述鉴别器模块使用鉴别器函数将由发生器模块产生的所产生的环境状态解译与真实环境状态信息进行比较,如果鉴别器模块的输出是所产生的环境解译不对应于真实环境状态,则鉴别器模块拒绝所产生的环境状态解译,然后,发生器模块基于该拒绝来学习,并且因此产生改进的环境状态解译,其包括关于拒绝的环境状态解译的扰动,其中,改进的环境状态解译的产生包括蒙特卡罗式过程以产生扰动的改进的环境状态解译,
当发生器模块的发生器函数被更新到大多数所产生的环境解译“通过”鉴别器模块的鉴别器函数测试的精确水平时,然后暂停发生器函数的更新;然后,通过使用另一个损失或成本函数来迭代地更新鉴别器模块的鉴别器函数,使得鉴别器函数更可能正确地确定所产生的环境解译与真实环境状态相关;当鉴别器函数被更新/优化到某个精度水平时,暂停鉴别器函数的更新,然后基于改进的鉴别器函数来恢复发生器函数的更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于通用汽车环球科技运作有限责任公司,未经通用汽车环球科技运作有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810986094.2/1.html,转载请声明来源钻瓜专利网。