[发明专利]训练轨迹预测模型和轨迹规划的方法和装置有效

申请号：	202210027158.2	申请日：	2022-01-11
公开（公告）号：	CN114386599B	公开（公告）日：	2023-01-31
发明（设计）人：	曾宏生;周波;王凡;陈永锋;何径舟	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/0442;G06N3/045;G06V10/82;G06V20/56;G05D1/02
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练轨迹预测模型规划方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种训练轨迹预测模型的方法，包括：

获取样本集，其中，所述样本集中的样本包括：当前观测状态、动作、奖励、下一时刻观测状态，其中，当前观测状态包括当前时刻以及过往时刻的激光点云数据和定位信息，下一时刻观测状态包括往后平移一个时间步长的激光点云数据和定位信息，动作包括未来预定时间内的无人车的行驶轨迹，所述奖励为当前时刻状态跳转到下一时刻状态时获取到的奖励，所述奖励包括以下至少一种：碰撞、压线、距离目标距离；

从样本集中选择目标样本，以及执行如下训练步骤：将所述目标样本中的当前观测状态输入第一神经网络，输出预测动作；将所述预测动作和所述目标样本中的当前观测状态输入第二神经网络，输出动作得分；若所述动作得分大于等于目标值，则将所述第一神经网络作为轨迹预测模型；其中，第一神经网络的模型结构的输入是多个时刻的观测信息，对于每个时刻的输入先分别经过共享参数的图像处理神经网络，然后对于输出的中间状态向量，再经过一个RNN时序网络，并将最后一个时刻的输出作为网络的最终输出，输出了预测动作，包括预测的速度和位置；

若所述动作得分小于目标值，则基于所述目标样本中的动作、奖励、下一时刻观测状态调整第一神经网络和第二神经网络的相关参数，重新选择目标样本继续执行上述训练步骤；

其中，所述基于目标样本中的动作、奖励、下一时刻观测状态调整第一神经网络和第二神经网络的相关参数，包括：

基于所述目标样本中的动作和预测动作之间的差异，或者按奖励变大的方向，或者基于下一时刻观测状态和所述目标样本的下一时刻的当前观测状态之间的差异调整第一神经网络和第二神经网络的相关参数。

2.根据权利要求1所述的方法，其中，所述将所述预测动作和所述目标样本中的当前观测状态输入第二神经网络，输出动作得分，包括：

将所述预测动作通过所述目标样本中的动作进行修正后，得到目标动作；

将所述目标动作和所述目标样本中的当前观测状态输入第二神经网络，输出动作得分。

3.根据权利要求1所述的方法，其中，所述方法还包括：

在仿真器中或者真实场景中评估轨迹预测模型。

4.根据权利要求1所述的方法，其中，所述第一神经网络和所述第二神经网络具有相同的网络结构，包括：残差网络层和循环神经网络层。

5.一种轨迹规划方法，包括：

获取激光点云数据；

将所述点云数据输入根据权利要求1-4中任一项的所述方法训练出的轨迹预测模型，输出预测的动作；