[发明专利]基于深度强化学习的智能车速度决策方法及其仿真方法有效
申请号: | 202010788354.2 | 申请日: | 2020-08-07 |
公开(公告)号: | CN111898211B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 赵海艳;陈伟轩;刘晓斌;赵津杨;冯宇驰 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/20;G06N3/04;G06N3/08 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 杜森垚 |
地址: | 130012 吉林省长春市*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 智能 车速 决策 方法 及其 仿真 | ||
1.一种基于深度强化学习的智能车速度决策方法,其特征在于,包括以下步骤:
步骤一、构造智能车通过路口的马尔可夫决策模型:构造马尔可夫决策模型中的状态空间S,动作空间A,即时奖赏空间R;
状态空间的构成包括本车状态与他车状态,构建状态空间S如下:
S=[sego,s1,s2,…,sn]
其中,sego表示本车状态,s1-sn表示当前交通场景中其他车辆的状态,n表示其他车辆的数量;
动作空间A的构成包括本车在通过路口过程中能够控制车速的操作,包括:剧烈地减速DECH,柔和地减速DECS,保持匀速KS,柔和地增速ACCS,剧烈地增速ACCH,如下所示:
A=[DECH,DECS,KS,ACCS,ACCH]
即时奖赏R表示智能车完成某个动作后得到的回报,包括:到达目的地附近的奖赏值Rdes,智能车与他车发生碰撞的奖赏值Rcoll,衡量舒适性的奖赏值Rcom,衡量跟车距离潜在安全性的奖赏值Rdis,行车效率奖赏值Reffi,即时奖赏函数构成如下:
R=Rdes+Rcoll+Rcom+Rdis+Reffi
步骤二、初始化神经网络,构建经验池;
步骤三、采用ε-greedy算法进行动作的选择,并将此次经验填加进所述步骤二构建的经验池;
步骤四、从经验池随机选出一部分经验,采用随机梯度下降法训练神经网络;
步骤五、根据所述步骤四得到的最新神经网络完成当前时刻智能车的速度决策,并将此次经验填加至经验池,随机选取一部分经验再进行新一轮神经网络的训练。
2.如权利要求1所述的一种基于深度强化学习的智能车速度决策方法,其特征在于,所述步骤二包括以下步骤:
神经网络包含1个输入层、1个输出层,2个隐藏层;
在输入层,设置神经节点的个数等于状态空间S向量的维度;
在输出层,设置神经节点的个数等于动作空间A的维度;
初始化经验池Replaybuffer以存取每次执行动作的状态转移;
使用经验回放法,将数据加载到缓存区。
3.如权利要求1所述的一种基于深度强化学习的智能车速度决策方法,其特征在于,所述步骤三包括以下步骤:
对于每一次动作的选择,在当前环境状态S0,采用ε-greedy贪婪策略进行动作a0的选择,即以ε的概率选择Q值最大的动作,以1-ε的概率随机选择动作,其中ε∈(0,1),如下所示:
随即执行动作a0,获得立即奖赏值R0,环境状态由S0转变为S1,如果本车与其他车辆发生碰撞,则将失败标志over置为1,否则over=0;
将experience=[S0,a0,R0,S1,over]作为一次经验,填加到经验池。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010788354.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种升降设备辅助装置、升降设备
- 下一篇:不锈钢材质零件表面电镀锌镍工艺