[发明专利]一种基于深度强化学习的多模型目标状态预测方法及系统在审
申请号: | 202010208346.6 | 申请日: | 2020-03-23 |
公开(公告)号: | CN111401458A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 谢国涛;王晓伟;秦晓辉;徐彪;边有钢;胡满江;杨泽宇;周华健;钟志华 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06N20/00;G01S7/41;G01S7/48 |
代理公司: | 广州容大专利代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 100084 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 模型 目标 状态 预测 方法 系统 | ||
1.一种基于深度强化学习的多模型目标状态预测方法,其特征在于:包括如下步骤:
步骤1,获取环境数据和定义深度强化学习环境状态,其中定义环境为:环境中各个目标的历史状态信息,包括目标的历史位置信息、目标的历史形状信息、目标的历史朝向信息、目标的历史速度信息、目标历史横摆角信息;
步骤2,以每预测方法作为深度强化学习的智能体,以每种方法的权重为智能体的行为模型,构建深度强化中多模型目标状态预测模型;
步骤3,定义多模型轨迹预测奖励模型,该奖励模型主要是给出每个智能体在优化预测权重过程中给出的效益函数;
步骤4,对步骤2中获得的预测模型采用离线初学习以及在线实时学习更新。
2.根据权利要求1所述的基于深度强化学习的多模型目标状态预测方法,其特征在于:所述步骤1中的目标的历史状态信息采用基于激光雷达、摄像头、毫米波雷达以及车路/车车/车云通信融合的感知方案获取。
3.根据权利要求2所述的基于深度强化学习的多模型目标状态预测方法,其特征在于:所述步骤3中效益函数R定义如下:
其中,i表示预测的目标编号,M表示预测的目标数;j表示预测的目标预测时长步数,N表示目标状态预测步长长度;Predij表示第i个目标在预测步长为j时的预测位置信息,Pij表示第i个目标在预测步长为j时的位置估计值;L_Predij表示第i个目标在预测步长为j时的预测形状信息,Lij表示第i个目标在预测步长为j时的形状估计值;O_Predij表示第i个目标在预测步长为j时的预测目标朝向信息,Oij表示第i个目标在预测步长为j时的目标朝向估计值;V_Predij表示第i个目标在预测步长为j时的预测的目标速度信息,Vij表示第i个目标在预测步长为j时的速度估计值;λk(k=0,1,2,3)表示预测误差权重,其中满足:λ0+λ1+λ2+λ3=1。
4.根据权利要求3所述的基于深度强化学习的多模型目标状态预测方法,其特征在于:所述步骤4中的离线初学习是根据采集的离线数据进行学习,采集的离线数据包括多传感器实时数据以及高精度地图数据,离线初学习是选取当前帧的历史数据作为多模型目标状态预测的输入,以当前帧后的数据作为多模型目标状态预测的预测结果的参考值。
5.根据权利要求4所述的基于深度强化学习的多模型目标状态预测方法,其特征在于:所述步骤4中的在线实时学习更新中,从当前帧开始,以预测时间长度往后的历史帧开始的历史数据为预测模型输入,以之后的数据为预测的结果的参考值,进行网络更新与在线优化。
6.一种应用权利要求2至5任意一项方法的系统,其特征在于:包括自车控制板以及激光雷达、摄像头、毫米波雷达以及车路/车车/车云通信融合系统,其中,方法搭载至自车控制板内,所述激光雷达、摄像头、毫米波雷达以及车路/车车/车云通信融合系统均与自车控制板耦接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010208346.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢铝复合管及其制造方法
- 下一篇:缓冲机构、立式炉及其工艺门