[发明专利]一种控制模型的训练方法、控制方法以及装置在审
申请号: | 202011104599.5 | 申请日: | 2020-10-15 |
公开(公告)号: | CN112306059A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 金昕泽;白钰;贾庆山;任冬淳;李阔;刘思威 | 申请(专利权)人: | 北京三快在线科技有限公司;清华大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 控制 模型 训练 方法 以及 装置 | ||
本说明书公开了一种控制模型的训练方法、控制方法以及装置,获取第一采集设备和第一采集设备周围的第一障碍物在设定历史时刻时的状态数据,作为第一状态数据。将第一状态数据输入到控制模型中,确定出第一采集设备在设定历史时刻之后的规划轨迹。根据规划轨迹,确定控制模型对应的奖励函数的奖励值,并根据奖励值,对控制模型进行训练。本方法通过第一采集设备和第一采集设备周围的障碍物在设定历史时刻时的状态数据,进行控制模型的训练,通过训练完成的控制模型规划轨迹,根据规划轨迹对无人驾驶设备进行控制,从而降低了无人驾驶设备与周围障碍物发生碰撞的概率。
技术领域
本说明书涉及无人驾驶技术领域,尤其涉及一种控制模型的训练方法、控制方法以及装置。
背景技术
目前,城市交通中的路口场景因交通情况复杂且模式不统一,导致无人驾驶设备在复杂场景下不能规划出合理的运动轨迹。
无人驾驶设备在交通情况复杂的道路上会遇到许多的障碍物,无人驾驶设备往往根据自身的状况来避免与障碍物发生碰撞,但在实际应用中,仅仅根据自身的状况来躲避障碍物的准确率并不高,存在与周围其他障碍物碰撞的可能,安全性较低。
因此,无人驾驶设备根据周围交通参与者的交互情况如何规划出一条合理的运动路径,则是一个亟待解决的问题。
发明内容
本说明书提供一种控制模型的训练方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种控制模型的训练方法,包括:
获取第一采集设备和所述第一采集设备周围的第一障碍物在设定历史时刻时的状态数据,作为第一状态数据;
将所述第一状态数据输入到控制模型中,确定出所述第一采集设备在所述设定历史时刻之后的规划轨迹,其中,所述规划轨迹是所述控制模型根据所述第一障碍物在所述设定历史时刻之后按照第二轨迹行驶的情况下确定,所述第二轨迹是所述控制模型根据所述第一状态数据确定,或是所述控制模型在所述第一采集设备按照第一轨迹在所述设定历史时刻之后进行行驶的情况下,根据所述第一状态数据确定,所述第一轨迹是所述控制模型根据所述第一状态数据确定的所述第一采集设备在所述设定历史时刻之后的基础轨迹;
根据所述规划轨迹,确定所述控制模型对应的奖励函数的奖励值,并根据所述奖励值,对所述控制模型进行训练。
可选地,将所述第一状态数据输入到待训练的控制模型中之前,所述方法还包括:
获取所述第一采集设备和所述第一障碍物在所述设定历史时刻之前的状态数据,作为第二状态数据;
将所述第二状态数据输入到预先训练的交互状态预测模型,以预测所述第一障碍物的障碍物交互层级,不同障碍物交互层级用于表征各第一障碍物之间的不同的交互状态;
将所述第一状态数据输入到控制模型中,确定出所述第一采集设备在所述设定历史时刻之后的规划轨迹,具体包括:
将所述第一状态数据输入到所述障碍物交互层级对应的控制模型,确定所述采集设备在所述障碍物交互层级下,在所述设定历史时刻之后的规划轨迹。
可选地,预先训练的交互状态预测模型,具体包括:
获取训练样本;
将所述训练样本中包含的第二采集设备和所述第二采集设备周围的第二障碍物的状态数据输入到所述交互状态预测模型,以预测所述第二障碍物的交互层级;
以最小化所述第二障碍物的交互层级与所述训练样本中包含的标签数据之间的偏差为优化目标,对所述交互状态预测模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司;清华大学,未经北京三快在线科技有限公司;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011104599.5/2.html,转载请声明来源钻瓜专利网。