[发明专利]一种进行驾驶策略模型训练的方法与设备有效
申请号: | 201711257831.7 | 申请日: | 2017-12-01 |
公开(公告)号: | CN107862346B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 许稼轩;周小成 | 申请(专利权)人: | 驭势科技(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 上海三和万国知识产权代理事务所(普通合伙) 31230 | 代理人: | 周建华 |
地址: | 102400 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 进行 驾驶 策略 模型 训练 方法 设备 | ||
1.一种进行驾驶策略模型训练的方法,其中,所述方法包括:
获取驾驶设备的驾驶策略模型对应的模型参数信息,其中,所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的,所述驾驶策略模型基于强化学习算法建立;
获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练;
所述预训练包括:
基于所述驾驶设备的历史驾驶参数信息及对应的驾驶规则信息,确定所述驾驶设备的第一驾驶策略信息;
基于所述驾驶设备的历史驾驶参数信息,通过强化学习算法确定所述驾驶设备的第二驾驶策略信息;
基于所述第一驾驶策略信息及所述第二驾驶策略信息,训练驾驶策略模型,确定所述模型参数信息。
2.根据权利要求1所述的方法,其中,所述基于所述第一驾驶策略信息及所述第二驾驶策略信息,训练驾驶策略模型,确定所述模型参数信息包括:
以驾驶规则信息对应的第一驾驶策略信息对第二驾驶策略信息进行约束。
3.根据权利要求2所述的方法,其中,进行过所述预训练的所述驾驶策略模型满足对应的第一回馈函数的评价指标,所述第一回馈函数的评价指标包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离小于预定阈值。
4.根据权利要求1所述的方法,其中,所述获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练包括:
获取所述驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,确定所述驾驶设备的第三驾驶策略信息;
执行所述第三驾驶策略信息;
利用所述驾驶策略模型对应的第二回馈函数的评价指标对所述执行所述第三驾驶策略信息的执行结果进行判断;
基于判断结果调整所述驾驶策略模型。
5.根据权利要求4所述的方法,其中,所述第二回馈函数的评价指标包括以下至少任一项:
驾驶设备与轨道中心线的距离小于预设距离阈值;
驾驶设备行驶方向与轨道线一致。
6.根据权利要求1至5中任一项所述的方法,其中,所述驾驶参数信息包括以下至少任一项:
车辆的速度信息;
车辆的偏离轨道方向信息;
车辆与轨道中心线的距离信息;
车辆与轨道边沿的距离信息;
障碍物感知信息;
交通标志感知信息。
7.根据权利要求1至5中任一项所述的方法,其中,所述驾驶设备包括智能驾驶车辆。
8.一种进行驾驶策略模型训练的驾驶设备,其中,所述驾驶设备包括:
获取装置,用于获取驾驶设备的驾驶策略模型对应的模型参数信息,其中,所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的,所述驾驶策略模型基于强化学习算法建立;
训练装置,用于获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练;
所述预训练包括:
基于所述驾驶设备的历史驾驶参数信息及对应的驾驶规则信息,确定所述驾驶设备的第一驾驶策略信息;
基于所述驾驶设备的历史驾驶参数信息,通过强化学习算法确定所述驾驶设备的第二驾驶策略信息;
基于所述第一驾驶策略信息及所述第二驾驶策略信息,训练驾驶策略模型,确定所述模型参数信息。
9.根据权利要求8所述的驾驶设备,其中,所述基于所述第一驾驶策略信息及所述第二驾驶策略信息,训练驾驶策略模型,确定所述模型参数信息包括:
以驾驶规则信息对应的第一驾驶策略信息对第二驾驶策略信息进行约束。
10.根据权利要求9所述的驾驶设备,其中,进行过所述预训练的所述驾驶策略模型满足对应的第一回馈函数的评价指标,所述第一回馈函数的评价指标包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离小于预定阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于驭势科技(北京)有限公司,未经驭势科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711257831.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车牌比对方法及装置
- 下一篇:一种基于随机森林的窃电行为的发现方法