[发明专利]一种进行驾驶策略模型训练的方法与设备有效

申请号：	201711257831.7	申请日：	2017-12-01
公开（公告）号：	CN107862346B	公开（公告）日：	2020-06-30
发明（设计）人：	许稼轩;周小成	申请（专利权）人：	驭势科技（北京）有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00
代理公司：	上海三和万国知识产权代理事务所(普通合伙) 31230	代理人：	周建华
地址：	102400 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种进行驾驶策略模型训练方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请的目的是提供一种进行驾驶策略模型训练的方法或设备；获取驾驶设备的驾驶策略模型对应的模型参数信息，其中，所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的，所述驾驶策略模型基于强化学习算法建立；获取驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，对所述驾驶策略模型进行训练。与现有技术相比，本申请对所述驾驶策略模型进行训练并不需要从零开始探索，而是在训练开始之前，所述驾驶设备已经学会了像驾驶规则一样驾驶了，在此基础上进行的驾驶策略模型的训练的过程将大大缩短，并且不合理驾驶策略的次数、训练过程对车辆造成的损伤也将大大减少。

技术领域

本申请涉及自动驾驶领域，尤其涉及一种进行驾驶策略模型训练的技术。

背景技术

随着机器学习技术的发展和应用，例如，强化学习技术的发展，在现有的自动驾驶技术中，对于车辆，特别是自动驾驶车辆的驾驶控制可以通过强化学习算法训练出的强化学习神经网络来实现，即将车辆实时的状态信息输入到所述强化学习神经网络，从而输出相应的驾驶策略信息，但是，现有的对所述强化学习神经网络的训练，对于每一辆需要训练的车辆，都需要从零开始不断训练相应的神经网络参数，然而，在实际应用中，对于不同车辆来说，由于其车辆参数(车长，重量，轴距，零件等等)不同，相应的神经网络参数不同，如果对于每一辆车都要进行一次从零开始的强化学习训练，需要经历漫长的训练和试错过程，将会带来巨大的的训练成本。并且，大量的训练和试错，若应用在实际的车辆上，还会在消耗漫长时间的同时、对车体造成巨大损害。

发明内容

本申请的目的是提供一种进行驾驶策略模型训练的方法与设备。

根据本申请的一个方面，提供了一种进行驾驶策略模型训练的方法，包括：

获取驾驶设备的驾驶策略模型对应的模型参数信息，其中，所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的，所述驾驶策略模型基于强化学习算法建立；

获取驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，对所述驾驶策略模型进行训练。

根据本申请的又一个方面，还提供了一种进行驾驶策略模型训练的驾驶设备，包括：

获取装置，用于获取驾驶设备的驾驶策略模型对应的模型参数信息，其中，所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的，所述驾驶策略模型基于强化学习算法建立；

训练装置，用于获取驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，对所述驾驶策略模型进行训练。

根据本申请的另一方面，还提供了进行驾驶策略模型训练的驾驶设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行以下操作：