[发明专利]一种无人车控制模型的训练方法及装置有效

申请号：	202010184383.8	申请日：	2020-03-17
公开（公告）号：	CN111046981B	公开（公告）日：	2020-07-03
发明（设计）人：	任冬淳;夏华夏;樊明宇;丁曙光;钱德恒	申请（专利权）人：	北京三快在线科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00;G05D1/02
代理公司：	北京曼威知识产权代理有限公司 11709	代理人：	方志炜
地址：	100080 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种无人控制模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书公开了一种无人车控制模型的训练方法及装置，针对模型训练时的每个时刻，可确定由上一时刻用于计算奖励的各历史环境特征以及根据当前环境信息确定的当前环境特征构成的特征矩阵，之后，再基于当前环境特征以及各历史环境特征对特征矩阵的重要程度，从特征矩阵中选择当前时刻用于计算奖励的特征，然后根据当前环境特征以及选择出的特征确定奖励，以训练该无人车控制模型，并在训练结束后，根据训练完成的模型进行无人车控制。由于计算奖励的特征，是基于包含历史环境特征在内的各特征对的特征对整体的重要程度确定的，使得训练时可基于环境信息的变化确定更多的有效奖励，解决了奖励稀疏的问题，节省了成本以及时间。

技术领域

本申请涉及无人驾驶技术领域，尤其涉及一种无人车控制模型的训练方法及装置。

背景技术

目前，无人驾驶技术领域中无人车控制方法主要需要解决的问题是无人车如何避障，通常无人车避障过程为：将无人车实时采集的环境信息、自身行驶状态等输入预先训练的模型，根据模型的输出控制无人车避障行驶。

在现有技术中，通常利用强化学习的方法进行模型训练，通过不断地“试错”过程训练得到该模型。具体的，训练强化学习模型时，无人车根据上一时刻的行动对环境信息造成的影响确定奖励，将奖励以及当前时刻的环境信息输入强化学习模型，以根据模型的输出控制无人车。通过行驶过程中不断的输入输出，训练强化学习模型。使模型“学”到不同情况下应该对应什么样的输出。

但是，现有训练强化学习模型过程，通常在无人车到达目的地时确定模型输出的是正确的控制，给与正面反馈，当行驶过程中出现危险状况时确定模型输出的是错误的控制，给与反面反馈，因此通常只有在达到目的地或者出现危险状况反馈的奖励才是有效奖励，即可以使模型参数收敛的奖励，而在行驶过程中大部分奖励都难以使模型收敛，导致每次训练过程得到的有效奖励较为稀疏，使得模型训练成本较高、耗时较长。

发明内容

本说明书实施例提供的一种无人车控制模型的训练方法及装置，用于部分解决现有技术中存在的问题。

本说明书实施例采用下述技术方案：

本说明书提供的无人车控制模型的训练方法，包括：

获取无人车在行驶过程中所处位置的当前环境信息，并根据所述当前环境信息确定当前环境特征；

确定由上一时刻用于计算奖励的各历史环境特征以及所述当前环境特征构成的特征矩阵，所述各历史环境特征为根据所述无人车在所述行驶过程中获取的各历史环境信息确定出的特征；

根据所述特征矩阵中各特征之间的相似度，确定所述当前环境特征以及所述各历史环境特征对所述特征矩阵的重要程度，并根据所述重要程度从所述特征矩阵中选择当前时刻用于计算奖励的特征；

根据所述当前环境特征以及选择出的特征，通过预设的奖励函数确定奖励；

将所述当前环境信息以及所述奖励输入待训练的无人车控制模型，进行模型训练，所述无人车控制模型用于无人车控制。

可选地，获取无人车在行驶过程中所处位置的当前环境信息，具体包括：

获取所述无人车周围的障碍物信息、所述无人车当前时刻的定位信息以及所述当前行驶过程对应的车道信息，作为所述当前环境信息；

其中，所述车道信息包括：当前车道位置以及后续车道位置，所述当前车道位置根据所述无人车当前时刻的定位信息确定，所述后续车道位置为根据所述定位信息以及所述行驶过程对应的路径规划，确定出的后续所述无人车可行驶的车道位置。