[发明专利]一种基于多目标Sarsa学习的动态路径诱导方法有效

申请号：	201810992284.5	申请日：	2018-08-29
公开（公告）号：	CN109269516B	公开（公告）日：	2022-03-04
发明（设计）人：	文峰;封筱	申请（专利权）人：	沈阳理工大学
主分类号：	G01C21/34	分类号：	G01C21/34;G06Q10/04;G06Q50/30
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	刘晓岚
地址：	110159 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种基于多目标Sarsa学习的动态路径诱导方法，流程包括：信息初始化；信息更新；诱导路径计算，包括Q矢量表归一化，计算基于驾驶者偏好的标量值，计算Boltzmann概率分布，通过轮盘赌方法为驾驶者选择符合其个人偏好的下一行驶路段，直到驾驶者车辆达到目的地。根据当前交通系统的交通状况，优化车辆的行驶路径，提高交通系统效率，缓解交通拥堵状况。从实际角度出发，同时进行多诱导目标的动态路径诱导，更为符合实际生活中的诱导需求。考虑驾驶者诱导偏好，为驾驶者提供符合个人偏好的的动态诱导路径，从而提高诱导路径接受率，进一步提高交通系统的通行效率，缓解交通拥堵状况。
搜索关键词：	一种基于多目标 sarsa 学习动态路径诱导方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于多目标Sarsa学习的动态路径诱导方法，其特征在于，包括如下流程：步骤1：信息初始化，具体包括步骤1.1～步骤1.3：步骤1.1：确认诱导目标：包括选择最小化旅行时间、最小化旅行距离和最小化花费，一种或者几种；步骤1.2：针对诱导目标，交通信息中心使用基于Q值的动态规划算法并根据地理信息库中路网信息，以及历史采集到的各路段静态数据，来初始化路网上各个诱导目标对应待选择终点的Q矢量表，且一个Q矢量表对应一个待选择的终点；步骤1.3：设置交通信息中心发布的Q值信息更新时间间隔T；步骤2：信息更新，具体包括：定义诱导目标权重、当前路网交通拥堵系数计算和每隔T时刻，用Sarsa学习方法更新Q矢量表：(1)定义诱导目标权重：记录路网中所有车辆当前信息，经过当前路段的实时交通信息，以及路网中通行的每个驾驶者的偏好；假设共有n个诱导目标，则每个驾驶者的偏好记作权重矢量ω＝(ω1，...，ωn)，其中，ωo∈[0，1]表示第o个诱导目标对应偏好的权重，定义各诱导目标的权重：每个驾驶者自行定义对每个诱导目标的在意程度，即为每个驾驶者的偏好记权重；(2)当前路网交通拥堵系数计算：统计当前路网中车辆数量NV，并根据当前路网中车辆数量计算当前路网交通拥堵系数∈：其中，β，γ为参数，交通拥堵系数∈表示交通系统当前的交通状况；(3)每隔T时刻，用Sarsa学习方法更新Q矢量表：每隔T时刻，通过(1)中获取的距更新时间最近的各个路段上车辆的实时信息，以及使用步骤3.3和步骤3.4所分配的下一行驶路段对每个诱导目标o，根据Sarsa学习方法分别更新对应终点的Q矢量表，Sarsa学习方法公式如下：其中，为以o为诱导目标从交通节点i出发经过相邻交通节点j且终点为d的Q值，k为交通节点j的相邻交通节点，α为学习率，为车辆v经过路段s_ij获得的实际奖赏值；步骤3：诱导路径计算，包括步骤3.1～步骤3.5：步骤3.1：Q矢量表归一化：根据步骤2中更新后的Q矢量表，对不同的诱导目标分别采用离差标准化方法归一化对应的Q值，公式如下：其中，为经过路段s_ij终点为d的诱导目标o的归一化Q值，和分别为终点为d且诱导目标为o所对应的所有路段Q值中的最小值和最大值；步骤3.2：计算基于驾驶者偏好的标量值：根据步骤2中得到的相应驾驶者偏好即权重矢量ω，以及步骤3.1归一化后的Q矢量表，应用线性标量化函数如下公式，将终点为d的Q矢量表中车辆所处当前交通节点的全部相邻路段的Q矢量，转换为基于驾驶者偏好的标量值SQd(i，j)，具体公式如下：其中，n表示诱导目标数量，ω_o表示目标o对应的偏好权重，表示经过路段s_ij终点为d的目标o的归一化Q值；步骤3.3：计算Boltzmann概率分布：通过步骤2中获取的车辆当前信息，使用基于驾驶者偏好的标量值SQd(i，j)，计算当前交通节点相邻路段的Boltzmann概率分布，公式如下：其中，Pd(i，j)为车辆终点为d并选择路段sij的概率，i，j为交通节点，A(i)为以交通节点i为起点的路段的终点集合，根据路网拓扑结构所得当前节点相邻路段所对应的终点组成的集合，∈为交通拥堵系数，ESQd(i)是节点i周围路段到目的地d的基于驾驶者偏好的标量值SQd(i)的平均值；步骤3.4：选择符合其个人偏好的下一行驶路段：基于步骤3.3计算各路段Boltzmann概率分布，通过轮盘赌方法为驾驶者选择符合其个人偏好的下一行驶路段；步骤3.5：若车辆未到达目的地，重复步骤3.2～3.3，直至车辆到达目的地。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于沈阳理工大学，未经沈阳理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810992284.5/，转载请声明来源钻瓜专利网。

上一篇：一种采用导航系统的车辆
下一篇：一种用于高速铁路站台的应急疏导仿真方法及系统

同类专利

专利分类

G 物理

G01 测量；测试
G01C 测量距离、水准或者方位；勘测；导航；陀螺仪；摄影测量学或视频测量学
G01C21-00 导航；不包含在G01C 1/00至G01C 19/00组中的导航仪器
G01C21-02 .应用天文学的方法
G01C21-04 .应用陆地测量法
G01C21-10 .通过速度或加速度的测量
G01C21-20 .执行导航计算的仪器
G01C21-24 .专用于宇宙航行的导航

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多目标Sarsa学习的动态路径诱导方法有效

专利文献下载