[发明专利]一种基于强化学习的自动驾驶关键场景生成方法有效
申请号: | 202110082493.8 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112784485B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 董乾;薛云志;孟令中;杨光;王鹏淇;师源;武斌 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G01M17/007;G06F111/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 自动 驾驶 关键 场景 生成 方法 | ||
1.一种基于强化学习的自动驾驶关键场景生成方法,其步骤包括:
1)从地图库中选择一个道路场景,设置仿真系统中主车的行驶路线并为各动态环境要素分别建立概率模型;所述动态环境要素包括行人、该主车之外的其他行驶车辆、交通灯;
2)仿真系统控制主车开始执行仿真任务;基于强化学习技术,对所选道路场景中各动态要素的概率模型进行训练,得到各概率模型针对所选道路场景的最优参数并保存在测试用例库中;
3)循环步骤1-2),得到各概率模型针对地图库中每一道路场景的最优参数;
4)从该地图库中获取若干道路场景并组合得到测试地图,并选择仿真环境中所需的动态要素;
5)从测试用例库中导入该测试地图所含的各动态要素的概率模型及对应最优参数,生成关键场景测试用例,作为自动驾驶关键场景;
其中,对所选的道路场景中各动态要素的概率模型进行训练的方法为:
21)设置模型训练的总迭代次数E;初始化迭代次数e=0;
22)设置所选的道路场景中各动态要素的运动路线和初始位置;
23)根据主车的当前状态计算出所选道路场景中每个动态要素的概率分布;
24)对每个动态要素的概率分布进行随机采样,得到状态S下各动态要素的概率模型的动作参数;
25)利用步骤24)的随机采样结果作为条件对主车进行测试,然后根据测试的运行结果计算奖励值R,其中,奖励值ai为第i个动态要素,n为动态要素的个数;w1、w2、w3、w4、w5均是非负的权重系数,ped表示所选道路场景中的行人集合,c表示所选道路场景中的其他行驶车辆集合,l表示所选道路场景中的交通灯集合,r表示主车违反交通规则的集合,p表示主车惩罚项的集合;
奖励值b1、b2均是非负的权重系数;表示针对第i个动作要素ai根据行人与主车之间的最小距离disp获得的奖励值,表示针对第i个动作要素ai根据主车与行人发生交通事故colp(ai)获得的奖励值;
奖励值其中c1、c2是非负的权重系数,表示针对第i个动作要素ai根据其他行驶车辆与主车之间的最小距离获得的奖励值,(ai)表示针对第i个动作要素ai根据主车与其他行驶车辆发生交通事故获得的奖励值;
奖励值Rl=f1*Rred(ai)+f2*Ryellow(ai),f1、f2均是非负的权重系数,Rred(ai)表示针对第i个动作要素ai根据主车闯红灯情况获得的奖励值;
Rr=g1*Rcross(ai)+g2*Rconverse(ai)+g3*Rlane_change(ai),g1、g2、g3均是非负的权重系数,Rcross(ai)表示针对第i个动作要素ai根据主车压线行驶获得的奖励值,Rconverse(ai)表示针对第i个动作要素ai根据主车逆行可获得的奖励值,Rlane_change(ai)表示针对第i个动作要素ai根据主车出现非法变道可获得的奖励值;
其中,hi是主车在状态si的行车路线,ρ0表示动态要素的位置,γ为设定阈值,RP为行驶状态奖励值;
26)利用策略梯度方法对动态要素的概率模型进行优化;其中基于奖励值确定优化所用的目标函数为a是从策略分布πφ中采样的动作,φ=(a1,...,an);E是期望函数;
27)迭代次数e加1;当模型训练的迭代次数e小于E时,返回步骤22);当模型训练的迭代次数等于E时,完成动态要素的概率模型的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110082493.8/1.html,转载请声明来源钻瓜专利网。