[发明专利]经执行器-评价网络架构学习车道变换策略的方法和系统有效
申请号: | 201910496094.9 | 申请日: | 2019-06-10 |
公开(公告)号: | CN111137292B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | P·帕拉尼萨梅;U·P·穆达里格;陈亦伦;J·M·多兰;K·米林 | 申请(专利权)人: | 通用汽车环球科技运作有限责任公司;卡内基梅隆大学 |
主分类号: | B60W30/18 | 分类号: | B60W30/18;G06N3/0464;G06N3/084;G06N3/045;G06N3/0442;G06V10/774;G06V10/82 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘桢;王丽辉 |
地址: | 美国密*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 执行 评价 网络 架构 学习 车道 变换 策略 方法 系统 | ||
1.一种用于经由执行器-评价网络架构学习车道变换策略的方法,其中每个车道变换策略描述被选择由自主车辆采取的一个或多个动作,所述方法包括:
经由执行器网络随时间处理从环境接收的图像数据以将车道变换策略作为分层动作的集合来学习,其中所述每个车道变换策略包括高级别动作和相关的低级别动作,其中所述高级别动作包括:左车道变换、车道跟随和右车道变换,并且其中每个相关的低级别动作包括转向角命令参数和加速制动率参数;以及
经由在评价网络处的动作值函数预测动作值;
经由所述评价网络评估车道变换策略;
经由所述评价网络计算损失和梯度以驱动学习并更新所述评价网络;
其中,在每个特定的时间步长时经由所述执行器网络进行的处理包括:
在所述执行器网络的卷积神经网络CNN处,处理所述图像数据以生成特征图,所述特征图包括驾驶环境的机器可读表示,其包括在特定时间步长时获取的所述环境的特征;
在所述执行器网络的空间注意力模块处,处理所述特征图以选择所述图像数据中的相关区域,其是用于在驾驶中进行车道变换时计算动作所需要聚焦的重要的区域;
在所述空间注意力模块处,学习所述图像数据的每个所述相关区域的重要性权重;
在所述空间注意力模块处,将所学习的重要性权重应用于所述图像数据的每个所述相关区域,以增加所述图像数据的所述相关区域的重要性;
在所述空间注意力模块处,生成空间环境矢量;以及
在所述执行器网络的时间注意力模块处,处理所述空间环境矢量以学习要应用于过去的图像数据帧的时间注意力权重,从而指示在决定选择哪个车道变换策略时的相对重要性;
在所述时间注意力模块处,生成组合的环境矢量;
进一步包括:
经由至少一个全连接层处理所述组合的环境矢量,以生成所述分层动作的集合。
2.根据权利要求1所述的方法,其中经由所述执行器网络随时间处理从所述环境接收的所述图像数据包括:
处理从所述环境接收的所述图像数据,以将所述车道变换策略作为所述分层动作的集合来学习,其被表示为动作选择概率的矢量和耦合到每个独立分层动作的第一参数集合,以及
其中,经由在所述评价网络处的所述动作值函数预测所述动作值包括:
使用第二参数集合经由在所述评价网络处的所述动作值函数预测动作值,其中所述动作值函数被表示为使用所述第二参数集合的神经网络;
其中,经由所述评价网络评估所述车道变换策略包括:
基于由所述执行器网络生成的转移,经由所述评价网络评估所述车道变换策略,其中所述转移包括由所述执行器网络生成的所述图像数据、分层动作、奖励和下一图像数据。
3.根据权利要求2所述的方法,其中经由所述评价网络计算损失和梯度以驱动学习并更新所述评价网络包括:
经由所述评价网络计算损失和梯度以驱动学习并更新所述评价网络的所述第二参数集合,其中计算包括:
在反向传播模式期间,在所述评价网络处处理所获得的小批量转移,其包括由所述执行器网络生成的所述图像数据、分层动作、奖励和下一图像数据;
通过区分所述评价网络关于所述第二参数集合的损失,在所述评价网络处计算所述动作值函数的第一梯度,其中所述第一梯度是在关于所述第二参数集合预测所述动作值函数中的误差的梯度,其中所述第一梯度用于更新所述评价网络的所述第二参数集合;
基于所述第一梯度在所述评价网络处更新所述第二参数集合;
通过区分所述评价网络关于由所述执行器网络采取的所述分层动作的损失,在所述评价网络处计算关于由所述执行器网络生成的所述分层动作的所述动作值函数的第二梯度;
进一步包括:
将所述第二梯度反向传播到所述执行器网络;
在所述执行器网络处处理所述第二梯度以及由所述执行器网络生成的第三梯度以更新所述第一参数集合,其中通过区分所述执行器网络关于由所述执行器网络采取的所述分层动作的损失生成第三梯度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于通用汽车环球科技运作有限责任公司;卡内基梅隆大学,未经通用汽车环球科技运作有限责任公司;卡内基梅隆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910496094.9/1.html,转载请声明来源钻瓜专利网。