[发明专利]一种控制模型的训练方法、控制方法以及装置在审
申请号: | 202011104599.5 | 申请日: | 2020-10-15 |
公开(公告)号: | CN112306059A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 金昕泽;白钰;贾庆山;任冬淳;李阔;刘思威 | 申请(专利权)人: | 北京三快在线科技有限公司;清华大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 控制 模型 训练 方法 以及 装置 | ||
1.一种控制模型的训练方法,其特征在于,包括:
获取第一采集设备和所述第一采集设备周围的第一障碍物在设定历史时刻时的状态数据,作为第一状态数据;
将所述第一状态数据输入到控制模型中,确定出所述第一采集设备在所述设定历史时刻之后的规划轨迹,其中,所述规划轨迹是所述控制模型根据所述第一障碍物在所述设定历史时刻之后按照第二轨迹行驶的情况下确定,所述第二轨迹是所述控制模型根据所述第一状态数据确定,或是所述控制模型在所述第一采集设备按照第一轨迹在所述设定历史时刻之后进行行驶的情况下,根据所述第一状态数据确定,所述第一轨迹是所述控制模型根据所述第一状态数据确定的所述第一采集设备在所述设定历史时刻之后的基础轨迹;
根据所述规划轨迹,确定所述控制模型对应的奖励函数的奖励值,并根据所述奖励值,对所述控制模型进行训练。
2.如权利要求1所述的方法,其特征在于,将所述第一状态数据输入到待训练的控制模型中之前,所述方法还包括:
获取所述第一采集设备和所述第一障碍物在所述设定历史时刻之前的状态数据,作为第二状态数据;
将所述第二状态数据输入到预先训练的交互状态预测模型,以预测所述第一障碍物的障碍物交互层级,不同障碍物交互层级用于表征各第一障碍物之间的不同的交互状态;
将所述第一状态数据输入到控制模型中,确定出所述第一采集设备在所述设定历史时刻之后的规划轨迹,具体包括:
将所述第一状态数据输入到所述障碍物交互层级对应的控制模型,确定所述采集设备在所述障碍物交互层级下,在所述设定历史时刻之后的规划轨迹。
3.如权利要求2所述的方法,其特征在于,预先训练的交互状态预测模型,具体包括:
获取训练样本;
将所述训练样本中包含的第二采集设备和所述第二采集设备周围的第二障碍物的状态数据输入到所述交互状态预测模型,以预测所述第二障碍物的交互层级;
以最小化所述第二障碍物的交互层级与所述训练样本中包含的标签数据之间的偏差为优化目标,对所述交互状态预测模型进行训练。
4.如权利要求2所述的方法,其特征在于,若所述第一障碍物在所述设定历史时刻的障碍物交互层级为K,所述第一采集设备在所述设定历史时刻的设备交互层级为K+1,K为不小于2的整数。
5.如权利要求4所述的方法,其特征在于,将所述第一状态数据输入到待训练的控制模型中,以确定出所述第一采集设备在所述设定历史时刻之后的规划轨迹,具体包括:
若确定所述障碍物交互层级为K,获取设备交互层级K-1所涉及的第一模型参数,并将所述第一模型参数作为所述障碍物交互层级K对应的控制模型中涉及所述设备交互层级K-1的模型参数,所述第一模型参数是从训练后的障碍物交互层级K-2对应的控制模型K-2中获取到的;
将所述第一状态数据输入到所述障碍物交互层级K对应的控制模型K,确定所述第一采集设备在所述障碍物交互层级K下对应的运动轨迹,作为所述规划轨迹,其中,所述规划轨迹为所述第一采集设备在设备交互层级K+1下对应的运动轨迹,所述规划轨迹是所述控制模型K将所述第一障碍物在所述障碍物交互层级K下的运动轨迹作为所述第二轨迹,并根据所述第二轨迹确定的,所述第二轨迹是所述控制模型K是将所述第一采集设备在设备交互层级K-1下的运动轨迹作为所述第一轨迹,并根据所述第一轨迹以及所述第一状态数据确定的,所述第一轨迹是所述控制模型K根据所述设备交互层级K-1涉及的模型参数以及所述第一状态数据确定的;
根据所述奖励值,对所述控制模型进行训练,具体包括:
根据所述奖励值,对所述控制模型K中包含的障碍物交互层级K的模型参数,以及设备交互层级K+1的模型参数进行调整,以对所述控制模型K进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司;清华大学,未经北京三快在线科技有限公司;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011104599.5/1.html,转载请声明来源钻瓜专利网。