[发明专利]优化决策规控的方法、控制车辆行驶的方法和相关装置有效
申请号: | 202010329110.8 | 申请日: | 2020-04-23 |
公开(公告)号: | CN113552869B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 王滨;庄雨铮;刘武龙 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 陈洪艳;王君 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 优化 决策 方法 控制 车辆 行驶 相关 装置 | ||
1.一种优化决策规控的方法,其特征在于,应用在决策控制系统,所述决策控制系统包括行为决策层和运动规划层,所述方法包括:
获取第一轨迹序列,所述第一轨迹序列中包括车辆在第一环境中的轨迹信息;
获取所述行为决策层基于所述第一环境的信息输出的第一目标驾驶行为信息;
对所述第一轨迹序列和所述第一目标驾驶行为信息进行融合,得到第一行驶序列;
获取所述运动规划层基于预设的第二目标驾驶行为信息输出的第二轨迹序列;
对所述第二轨迹序列和所述第二目标驾驶行为信息进行融合,得到第二行驶序列;
根据所述第一行驶序列与预设的目标示教行驶序列之间的差异,对所述行为决策层进行优化,所述目标示教行驶序列中包括示教轨迹序列和示教驾驶行为信息;
根据所述第二行驶序列与所述目标示教行驶序列之间的差异,对所述运动规划层进行优化。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一行驶序列与目标示教行驶序列之间的差异,对所述行为决策层进行优化,包括:
获取判别模型输入所述第一行驶序列时的第一输出,所述判别模型用于判断输入的行驶序列是否为示教行驶序列;并根据所述第一输出对所述行为决策层进行优化;
所述根据所述第二行驶序列与所述目标示教行驶序列之间的差异,对所述运动规划层进行优化,包括:
获取所述判别模型输入所述第二行驶序列时的第二输出;根据所述第二输出对所述运动规划层进行优化;
并且,所述方法还包括:
获取所述判别模型输入所述目标示教行驶序列时的第三输出;
根据所述第一输出、所述第二输出和所述第三输出,对所述判别模型进行优化。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二输出对所述运动规划层进行优化,包括:
使用策略优化法,基于所述第二输出,对所述运动规划层进行优化。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一输出对所述行为决策层进行优化,包括:
获取第一函数的梯度,并使用梯度下降法根据所述第一函数的梯度对所述行为决策层进行优化,所述第一函数的自变量包括所述第一输出。
5.根据权利要求4所述的方法,其特征在于,所述第一函数的表达式为:
其中,N表示预设的根据所述第一函数的梯度优化所述行为决策层的次数,ω为预设的值,Tj表示所述第一轨迹序列的长度,表示所述第一输出,λE为预设的值,表示所述N次优化中的第j次优化时所对应的示教行驶行为,表示所述行为决策层的输入为所述示教轨迹序列时所述行为决策层输出行驶行为的条件概率,λG为预设的值。
6.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一输出、所述第二输出和所述第三输出,对所述判别模型进行优化,包括:
获取第二函数的梯度,并使用梯度上升法根据所述第二函数的梯度,对所述判别模型进行优化,所述第二函数的自变量包括所述第一输出、所述第二输出和所述第三输出。
7.根据权利要求6所述的方法,其特征在于,所述第二函数的表达式为:
其中,Ne表示所述示教轨迹序列的长度,表示所述第三输出,N表示预设的优化所述判别模型的次数,ω为预设的值,Tj表示所述第一轨迹序列的长度,表示所述第二输出,表示所述第一输出。
8.根据权利要求1至3中任一项所述的方法,其特征在于,所述目标示教驾驶序列是从预先配置的示教数据集中选取的,所述示教数据集中包括第一驾驶场景下的多个示教驾驶序列;
其中,所述方法还包括:
更新所述示教数据集,更新后的所述示教数据集中包括第二驾驶场景下的示教驾驶序列。
9.根据权利要求1至3中任一项所述的方法,其特征在于,所述目标示教驾驶序列为驾驶员驾驶车辆时采集的驾驶序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010329110.8/1.html,转载请声明来源钻瓜专利网。