[发明专利]基于深度强化学习的智能车速度决策方法及其仿真方法有效
申请号: | 202010788354.2 | 申请日: | 2020-08-07 |
公开(公告)号: | CN111898211B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 赵海艳;陈伟轩;刘晓斌;赵津杨;冯宇驰 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/20;G06N3/04;G06N3/08 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 杜森垚 |
地址: | 130012 吉林省长春市*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 智能 车速 决策 方法 及其 仿真 | ||
本发明公开了一种基于深度强化学习方法的智能车速度决策方法,构造智能车通过路口的马尔可夫决策模型的状态空间S,动作空间A,即时奖赏空间R;初始化神经网络,构建经验池;采用ε‑greedy算法进行动作的选择,并将此次经验填加进所述步骤二构建的经验池;从经验池随机选出一部分经验,采用随机梯度下降法训练神经网络;根据最新神经网络完成当前时刻智能车的速度决策,并将此次经验填加至经验池,随机选取一部分经验再进行新一轮神经网络的训练。本发明同时公开了一种基于深度强化学习的智能车速度决策方法的仿真方法,基于matlab自动驾驶工具箱搭建的深度强化学习仿真系统进行仿真实验。
技术领域
本发明涉及深度强化学习技术领域及自动驾驶技术领域,尤其涉及基于深度强化学习与Matlab的智能车速度决策方法。
背景技术
随着社会的发展和科学技术水平的不断提升,人们对汽车提出了新的要求。许多汽车厂商和科研机构对汽车的研究重心正在由“传统汽车”转向“人、车、路一体化的智能汽车”,各个国家也相应出台了法规与政策推动智能车的发展。
自动驾驶技术现已成为智能车未来发展的核心技术与研究热点,决策控制作为自动驾驶技术的四大分支之一,占有重要地位。现有的智能车决策方法或多或少都存在一些缺陷,如基于规则的方法多适用于简单场景下,很难胜任具有丰富结构化特征的城区道路环境;基于轮询机制的决策树方法需要针对每个驾驶场景离线定义决策网络;基于信息/本体论的决策推理方法依赖于车-车(V2V)通信,需要完全知晓他车的信息(包括驾驶意图)。
同时,以上方法还存在忽略环境的动态性和不确定性的共性问题,然而现实的交通环境常常存在很强的不确定性,车与车,车与路关系错综复杂,实时都在变化,这样很难实现安全高效的决策,影响车辆的智能驾驶,甚至引发交通事故。
发明内容
本发明的目的在于针对现有决策方法存在的问题,提出一种基于深度强化学习方法的智能车速度决策方法及其仿真方法,将深度强化学习与matlab自动驾驶工具箱结合构成自动驾驶决策仿真系统,利用系统训练模型后,能够在无需知晓他车行驶意图的情况下,考虑环境的动态性和不确定性,实现车辆沿着既定路径行驶时安全有效的速度决策。
为实现上述目的,本发明采用技术方案如下:
作为本发明的一方面,提供一种基于深度强化学习的智能车速度决策方法,包括以下步骤:
步骤一、构造智能车通过路口的马尔可夫决策模型:构造马尔可夫决策模型中的状态空间S,动作空间A,即时奖赏空间R;
步骤二、初始化神经网络,构建经验池;
步骤三、采用ε-greedy算法进行动作的选择,并将此次经验填加进所述步骤二构建的经验池;
步骤四、从经验池随机选出一部分经验,采用随机梯度下降法训练神经网络;
步骤五、根据所述步骤四得到的最新神经网络完成当前时刻智能车的速度决策,并将此次经验填加至经验池,随机选取一部分经验再进行新一轮神经网络的训练。
进一步地,所述步骤一构造的状态空间S,动作空间A,即时奖赏空间R分别为:
状态空间的构成包括本车状态与他车状态,构建状态空间S如下:
S=[sego,s1,s2,…,sn]
其中,sego表示本车状态,s1-sn表示当前交通场景中其他车辆的状态,n表示其他车辆的数量;
动作空间A的构成包括本车在通过路口过程中能够控制车速的操作,包括:剧烈地减速DECH,柔和地减速DECS,保持匀速KS,柔和地增速ACCS,剧烈地增速ACCH,如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010788354.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种升降设备辅助装置、升降设备
- 下一篇:不锈钢材质零件表面电镀锌镍工艺