[发明专利]一种基于多目标Sarsa学习的动态路径诱导方法有效
申请号: | 201810992284.5 | 申请日: | 2018-08-29 |
公开(公告)号: | CN109269516B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 文峰;封筱 | 申请(专利权)人: | 沈阳理工大学 |
主分类号: | G01C21/34 | 分类号: | G01C21/34;G06Q10/04;G06Q50/30 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 刘晓岚 |
地址: | 110159 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于多目标Sarsa学习的动态路径诱导方法,流程包括:信息初始化;信息更新;诱导路径计算,包括Q矢量表归一化,计算基于驾驶者偏好的标量值,计算Boltzmann概率分布,通过轮盘赌方法为驾驶者选择符合其个人偏好的下一行驶路段,直到驾驶者车辆达到目的地。根据当前交通系统的交通状况,优化车辆的行驶路径,提高交通系统效率,缓解交通拥堵状况。从实际角度出发,同时进行多诱导目标的动态路径诱导,更为符合实际生活中的诱导需求。考虑驾驶者诱导偏好,为驾驶者提供符合个人偏好的的动态诱导路径,从而提高诱导路径接受率,进一步提高交通系统的通行效率,缓解交通拥堵状况。 | ||
搜索关键词: | 一种 基于 多目标 sarsa 学习 动态 路径 诱导 方法 | ||
【主权项】:
1.一种基于多目标Sarsa学习的动态路径诱导方法,其特征在于,包括如下流程:步骤1:信息初始化,具体包括步骤1.1~步骤1.3:步骤1.1:确认诱导目标:包括选择最小化旅行时间、最小化旅行距离和最小化花费,一种或者几种;步骤1.2:针对诱导目标,交通信息中心使用基于Q值的动态规划算法并根据地理信息库中路网信息,以及历史采集到的各路段静态数据,来初始化路网上各个诱导目标对应待选择终点的Q矢量表,且一个Q矢量表对应一个待选择的终点;步骤1.3:设置交通信息中心发布的Q值信息更新时间间隔T;步骤2:信息更新,具体包括:定义诱导目标权重、当前路网交通拥堵系数计算和每隔T时刻,用Sarsa学习方法更新Q矢量表:(1)定义诱导目标权重:记录路网中所有车辆当前信息,经过当前路段的实时交通信息,以及路网中通行的每个驾驶者的偏好;假设共有n个诱导目标,则每个驾驶者的偏好记作权重矢量ω=(ω1,...,ωn),其中,ωo∈[0,1]表示第o个诱导目标对应偏好的权重,定义各诱导目标的权重:
每个驾驶者自行定义对每个诱导目标的在意程度,即为每个驾驶者的偏好记权重;(2)当前路网交通拥堵系数计算:统计当前路网中车辆数量NV,并根据当前路网中车辆数量计算当前路网交通拥堵系数∈:
其中,β,γ为参数,交通拥堵系数∈表示交通系统当前的交通状况;(3)每隔T时刻,用Sarsa学习方法更新Q矢量表:每隔T时刻,通过(1)中获取的距更新时间最近的各个路段上车辆的实时信息,以及使用步骤3.3和步骤3.4所分配的下一行驶路段对每个诱导目标o,根据Sarsa学习方法分别更新对应终点的Q矢量表,Sarsa学习方法公式如下:
其中,
为以o为诱导目标从交通节点i出发经过相邻交通节点j且终点为d的Q值,k为交通节点j的相邻交通节点,α为学习率,
为车辆v经过路段sij获得的实际奖赏值;步骤3:诱导路径计算,包括步骤3.1~步骤3.5:步骤3.1:Q矢量表归一化:根据步骤2中更新后的Q矢量表,对不同的诱导目标分别采用离差标准化方法归一化对应的Q值,公式如下:
其中,
为经过路段sij终点为d的诱导目标o的归一化Q值,
和
分别为终点为d且诱导目标为o所对应的所有路段Q值中的最小值和最大值;步骤3.2:计算基于驾驶者偏好的标量值:根据步骤2中得到的相应驾驶者偏好即权重矢量ω,以及步骤3.1归一化后的Q矢量表,应用线性标量化函数如下公式,将终点为d的Q矢量表中车辆所处当前交通节点的全部相邻路段的Q矢量,转换为基于驾驶者偏好的标量值SQd(i,j),具体公式如下:
其中,n表示诱导目标数量,ωo表示目标o对应的偏好权重,
表示经过路段sij终点为d的目标o的归一化Q值;步骤3.3:计算Boltzmann概率分布:通过步骤2中获取的车辆当前信息,使用基于驾驶者偏好的标量值SQd(i,j),计算当前交通节点相邻路段的Boltzmann概率分布,公式如下:
其中,Pd(i,j)为车辆终点为d并选择路段sij的概率,i,j为交通节点,A(i)为以交通节点i为起点的路段的终点集合,根据路网拓扑结构所得当前节点相邻路段所对应的终点组成的集合,∈为交通拥堵系数,ESQd(i)是节点i周围路段到目的地d的基于驾驶者偏好的标量值SQd(i)的平均值;步骤3.4:选择符合其个人偏好的下一行驶路段:基于步骤3.3计算各路段Boltzmann概率分布,通过轮盘赌方法为驾驶者选择符合其个人偏好的下一行驶路段;步骤3.5:若车辆未到达目的地,重复步骤3.2~3.3,直至车辆到达目的地。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳理工大学,未经沈阳理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810992284.5/,转载请声明来源钻瓜专利网。