[发明专利]一种车辆行驶决策模型的训练方法及装置有效
申请号: | 202010145000.6 | 申请日: | 2020-03-05 |
公开(公告)号: | CN110991095B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 付圣;靳越翔;任冬淳 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;B60W50/00 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 车辆 行驶 决策 模型 训练 方法 装置 | ||
本说明书公开了一种车辆行驶决策模型的训练方法及装置。本说明书将实际环境信息通过预先训练的第一GAN生成类似于实际环境信息的虚拟环境信息(即,样本环境信息),并将该样本环境信息输入到预先训练的第二GAN生成与该样本环境信息相匹配的虚拟行驶决策(即,样本行驶决策),然后用该样本环境信息、与该样本环境信息对应的样本行驶决策训练车辆行驶决策模型。该种训练方式降低了车辆行驶决策模型对历史数据的依赖,当车辆处于交通状况较为复杂的环境中时,也能输出适应于车辆所处的环境和车辆行驶状态的行驶决策,使得车辆行驶决策模型的泛化性较强。
技术领域
本说明书涉及无人驾驶技术领域,尤其涉及一种车辆行驶决策模型的训练方法及装置。
背景技术
目前,车辆的智能化作为人工智能技术的重要组成部分,在社会生产、生活中的作用日益凸显,成为引导交通技术发展的主要方向之一。
在现有技术中,无人车及具有辅助驾驶功能的车辆(以下统称“车辆”)多采用预设的决策模型,根据对车辆所处的环境的分析,得出与该环境相适应的行驶决策,使得车辆能够根据该行驶决策行驶。可见,决策模型的训练决定了决策模型所输出的行驶决策的准确性。
当前,在决策模型的训练过程中,需要根据大量的已知专家数据对模型进行训练。专家数据一般包括各个时间点的车辆的动作以及车辆所处的环境,可以以车辆当前时刻的动作和车辆当前所处环境为输入,以下一时刻车辆的动作为标签,对模型进行训练。
然而,在实际操作过程中,由于专家数据的获取比较复杂,获取之后还需要人工筛选专家数据以及对专家数据做标签等处理,导致工作量很大。而且,如果仅根据专家数据对模型进行训练,会使得训练的决策模型对专家数据的依赖性较强,影响决策模型训练效果,导致该模型泛化性较差,使得该训练后的决策模型无法输出适应于车辆所处的环境和车辆行驶状态的行驶决策,危及车辆的行驶安全。在车辆处于交通状况较为复杂的环境中时,上述弊端将更加明显。
发明内容
本说明书实施例提供一种车辆行驶决策模型的训练方法及装置,以部分解决上述现有技术存在的问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种车辆行驶决策模型的训练方法,包括:
将历史数据中的实际环境信息输入到预先训练的第一生成式对抗网络GAN中的第一生成器,得到所述第一生成器输出的虚拟环境信息;
将所述虚拟环境信息输入到所述第一GAN中的第一判别器,使所述第一判别器判断所述虚拟环境信息是否为实际环境信息;
将所述第一判别器判定为实际环境信息的虚拟环境信息作为样本环境信息,并输入到预先训练的第二GAN中的第二生成器,得到所述第二生成器输出的对应于所述样本环境信息的各虚拟行驶决策;
将所述各虚拟行驶决策输入到所述第二GAN中的第二判别器,使所述第二判别器分别判断每个虚拟行驶决策是否与所述样本环境信息相匹配;
将所述第二判别器判定为与所述样本环境信息相匹配的虚拟行驶决策作为样本行驶决策;
根据所述样本环境信息以及与所述样本环境信息相匹配的样本行驶决策,对待训练的车辆行驶决策模型进行训练。
可选的,将历史数据中的实际环境信息输入到预先训练的第一生成式对抗网络GAN中的第一生成器,得到所述第一生成器输出的虚拟环境信息,具体包括:对历史数据中的实际环境信息加扰;将加扰后的实际环境信息输入到预先训练的第一GAN中的第一生成器,得到所述第一生成器输出的虚拟环境信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010145000.6/2.html,转载请声明来源钻瓜专利网。