[发明专利]一种基于模式切换的驾驶风格的学习巡航控制系统及方法有效
申请号: | 201910077510.1 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109624986B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 高炳钊;张羽翔;褚洪庆;郭露露;陈虹 | 申请(专利权)人: | 吉林大学 |
主分类号: | B60W40/09 | 分类号: | B60W40/09;B60W30/14 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 崔斌 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模式 切换 驾驶 风格 学习 巡航 控制系统 方法 | ||
1.一种基于模式切换的驾驶风格的学习巡航控制系统的控制方法,其特征在于,基于模式切换的驾驶风格的学习巡航控制系统的控制方法通过控制系统实现,所述系统包括智能感知及信号处理模块(A)、数据存储模块(B)、模式切换学习模块(C)、跟车特性学习模块(D)和车辆执行控制模块(E);
所述的智能感知及信号处理模块(A),用于获得当前车辆和前方车辆行驶状态信息,对前车驾驶意图识别,确定有限个加速度范围;
所述数据存储模块(B),用于存储驾驶员驾驶数据;
所述的模式切换学习模块(C),用于建立驾驶员马尔科夫模式切换决策模型,离线求解状态-动作值函数的权重向量;
所述的跟车特性学习模块(D),用于根据驾驶员驾驶数据的跟车行为特性网络进行离线训练,并以比例k,k=0.5-0.7更新到理想跟车特性的初始动作神经网络中;
所述的车辆执行控制模块(E),用于对控制量即加速度的跟踪,采用PID控制器即可实现对于加速度的执行;
所述的智能感知及信号处理模块(A)与模式切换学习模块(C)以及数据存储模块(B)相连;所述的数据存储模块(B)与模式切换学习模块(C)、跟车特性学习模块(D)相连;所述的模式切换学习模块(C)与跟车特性学习模块(D)相连,跟车特性学习模块(D)与车辆执行控制模块(E)相连;
该方法包括以下步骤:
步骤一、通过智能感知及信号处理模块(A)获得车辆控制算法所需的状态信息,包括:借助车载智能感知模块中车载摄像头、雷达环境感知元件确认前方待跟随车辆,并得到当前车辆和前方车辆行驶状态信息;并且根据前车车速计算得到加速度,作为状态输入;将得到的驾驶数据存储在数据存储模块(B)中;
步骤二、通过模式切换学习模块(C)建立驾驶员马尔科夫模式切换决策模型;基于车辆记录的驾驶员日常驾驶数据,包括前后车相对距离,前车车速,本车车速,本车加速度,发动机力矩,制动减速度,离线求解状态-动作值函数的权重向量;具体方法如下:
2.1)马尔科夫模型切换决策模型建立:驾驶员驾驶过程中不同模式间的切换表征特定驾驶员驾驶风格,将驾驶员切换模式决策建模为马尔科夫决策过程,确定描述驾驶工况的状态向量,构建相应的基函数;
马尔科夫模式切换决策模型建立:系统将驾驶风格定义于不同跟车情况下驾驶员在定速巡航,加速接近,稳态跟车,快速制动几种模式间的切换策略;将驾驶员切换模式决策建模为马尔科夫决策过程,进而使用强化学习方法学习;强化学习是一种交互式学习方法,智能体在环境中采取动作获得回报,基于回报进行学习;马尔科夫决策过程建模包括状态,动作,回报函数的设计;智能体在当前状态根据策略采取动作,进行状态转移并得到回报;系统在跟车状态下,描述当前时刻k的驾驶工况的状态向量s(k)为:
s(k)={vh(k),Δv(k),Δx(k),L(k),A(k-1)} (1)
其中,vh(k)为k时刻本车车速,Δv(k)为k时刻相对车速,Δx(k)为k时刻相对距离,L(k)为k时刻前车驾驶意图,A(k-1)为k-1时刻的驾驶模式;
在非跟车状态下,描述驾驶工况的状态向量为:
s(k)={vh(k),vref(k)-vh(k),0,0,A(k-1)} (2)
其中,vh(k)为k时刻本车车速,vref(k)为k时刻驾驶员设定车速,A(k-1)为k-1时刻的驾驶模式;非跟车状态下,表示相对距离与前车驾驶意图的状态分量均为0;
动作A∈{1,2,3,4}表示在定速巡航,加速接近,稳态跟车,快速制动模式间切换的动作;根据驾驶员驾驶数据AD为驾驶员模式,Aπ为当前策略下学习算法输出的动作,则回报函数为:
2.2)基于强化学习的最优问题求解:使用数值逼近方法对状态-动作值函数的权重向量基于贝尔曼最优性方程迭代求解;根据驾驶员驾驶数据,使用数值逼近方法求解强化学习中状态-动作值函数的权重向量;
步骤三、通过跟车特性学习模块(D)针对特定驾驶员在每种驾驶模式下跟车行为特性的不同,基于强化学习中常见的Actor-Critic框架在连续状态空间及连续动作空间进一步在线学习;使用结合归一化评价方法和引导动作搜索的强化学习方法,提高算法效率及学习成功率,减少算法对于初始权重的依赖性;
步骤四、通过车辆执行控制模块(E)采用比例-积分-微分PID控制器实现对于决策量即加速度的执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910077510.1/1.html,转载请声明来源钻瓜专利网。