[发明专利]一种进行驾驶策略模型训练的方法与设备有效

申请号：	201711257831.7	申请日：	2017-12-01
公开（公告）号：	CN107862346B	公开（公告）日：	2020-06-30
发明（设计）人：	许稼轩;周小成	申请（专利权）人：	驭势科技（北京）有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00
代理公司：	上海三和万国知识产权代理事务所(普通合伙) 31230	代理人：	周建华
地址：	102400 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种进行驾驶策略模型训练方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种进行驾驶策略模型训练的方法，其中，所述方法包括：

获取驾驶设备的驾驶策略模型对应的模型参数信息，其中，所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的，所述驾驶策略模型基于强化学习算法建立；

获取驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，对所述驾驶策略模型进行训练；

所述预训练包括：

基于所述驾驶设备的历史驾驶参数信息及对应的驾驶规则信息，确定所述驾驶设备的第一驾驶策略信息；

基于所述驾驶设备的历史驾驶参数信息，通过强化学习算法确定所述驾驶设备的第二驾驶策略信息；

基于所述第一驾驶策略信息及所述第二驾驶策略信息，训练驾驶策略模型，确定所述模型参数信息。

2.根据权利要求1所述的方法，其中，所述基于所述第一驾驶策略信息及所述第二驾驶策略信息，训练驾驶策略模型，确定所述模型参数信息包括：

以驾驶规则信息对应的第一驾驶策略信息对第二驾驶策略信息进行约束。

3.根据权利要求2所述的方法，其中，进行过所述预训练的所述驾驶策略模型满足对应的第一回馈函数的评价指标，所述第一回馈函数的评价指标包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离小于预定阈值。

4.根据权利要求1所述的方法，其中，所述获取驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，对所述驾驶策略模型进行训练包括：

获取所述驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，确定所述驾驶设备的第三驾驶策略信息；

执行所述第三驾驶策略信息；

利用所述驾驶策略模型对应的第二回馈函数的评价指标对所述执行所述第三驾驶策略信息的执行结果进行判断；

基于判断结果调整所述驾驶策略模型。

5.根据权利要求4所述的方法，其中，所述第二回馈函数的评价指标包括以下至少任一项：

驾驶设备与轨道中心线的距离小于预设距离阈值；

驾驶设备行驶方向与轨道线一致。

6.根据权利要求1至5中任一项所述的方法，其中，所述驾驶参数信息包括以下至少任一项：

车辆的速度信息；

车辆的偏离轨道方向信息；

车辆与轨道中心线的距离信息；

车辆与轨道边沿的距离信息；

障碍物感知信息；

交通标志感知信息。

7.根据权利要求1至5中任一项所述的方法，其中，所述驾驶设备包括智能驾驶车辆。

8.一种进行驾驶策略模型训练的驾驶设备，其中，所述驾驶设备包括：

获取装置，用于获取驾驶设备的驾驶策略模型对应的模型参数信息，其中，所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的，所述驾驶策略模型基于强化学习算法建立；

训练装置，用于获取驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，对所述驾驶策略模型进行训练；

所述预训练包括：

基于所述驾驶设备的历史驾驶参数信息及对应的驾驶规则信息，确定所述驾驶设备的第一驾驶策略信息；

基于所述驾驶设备的历史驾驶参数信息，通过强化学习算法确定所述驾驶设备的第二驾驶策略信息；

基于所述第一驾驶策略信息及所述第二驾驶策略信息，训练驾驶策略模型，确定所述模型参数信息。

9.根据权利要求8所述的驾驶设备，其中，所述基于所述第一驾驶策略信息及所述第二驾驶策略信息，训练驾驶策略模型，确定所述模型参数信息包括：

以驾驶规则信息对应的第一驾驶策略信息对第二驾驶策略信息进行约束。

10.根据权利要求9所述的驾驶设备，其中，进行过所述预训练的所述驾驶策略模型满足对应的第一回馈函数的评价指标，所述第一回馈函数的评价指标包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离小于预定阈值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于驭势科技（北京）有限公司，未经驭势科技（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711257831.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种车牌比对方法及装置
下一篇：一种基于随机森林的窃电行为的发现方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种进行驾驶策略模型训练的方法与设备有效

专利文献下载