[发明专利]一种基于策略迭代和聚类的交通信号优化控制方法有效
申请号: | 201610696748.9 | 申请日: | 2016-08-22 |
公开(公告)号: | CN106097733B | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 王冬青;张震;董心壮;丁军航;宋婷婷 | 申请(专利权)人: | 青岛大学 |
主分类号: | G08G1/08 | 分类号: | G08G1/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266071 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于策略迭代和聚类的交通信号优化控制方法,该方法涉及智能优化技术领域,包括:步骤1,选择控制方案,定义交通状态、控制动作、直接回报和Q值;步骤2,感应控制交通信号灯,记录每个采样时刻的交通状态、控制动作和离开停车线的车辆数;步骤3,对交通状态进行预处理,然后进行k均值聚类;步骤4,在路口机中使用策略迭代方法优化策略,把优化得到的策略和步骤3中得到的质心保存在交通信号控制器中;步骤5,使用步骤4获得的控制策略替代感应控制,在每个采样周期的起始时刻,交通信号控制器接收路口机采集的交通状态,根据质心对应的离散状态查询控制策略,得到控制动作并发送至路口机执行。 | ||
搜索关键词: | 一种 基于 策略 交通信号 优化 控制 方法 | ||
【主权项】:
1.一种基于策略迭代和聚类的交通信号优化控制方法,其特征在于:包括以下步骤:步骤1,选择待优化的信号控制方案为固定相序控制,定义交通状态为当前相位和下一相位的车辆排队长度,定义控制动作为保持当前相位或切换到下一相位,定义直接回报为一个与单个采样周期内离开停车线的车辆数有关的变量,定义状态‑动作对为离散交通状态和控制动作组成的数据向量,定义每个状态‑动作对的Q值表示处于相应离散交通状态下采取控制动作后获得的期望累积回报,定义控制策略为每个离散交通状态应该执行的控制动作;步骤2,路口机把交通信号控制器的控制策略设置为感应控制,最小绿灯时间、最大绿灯时间设置为采样周期的正整数倍,单位绿灯延长时间与采样周期相同,路口机对交通状态、执行的相位动作和离开停车线的车辆数进行采样并记录样本,采样方法为:在每个采样时刻记录交通状态、控制动作和每个采样周期离开停车线的车辆数;步骤3,路口机采集到指定数目的样本后,对样本中的交通状态进行离散化,离散化方法为:先对采样得到的交通状态进行归一化,并且去掉间距超过预设阈值的交通状态,再进行k‑均值聚类,将得到的质心进行编号,每个质心对应一个离散交通状态,并且把归一化样本中的交通状态用最近的质心的编号表示,得到对应的离散交通状态;步骤4,路口机使用策略迭代优化策略,把优化得到的策略和步骤3中得到的质心保存在交通信号控制器中;步骤5,路口机设置交通信号控制器的控制策略为步骤4获得的控制策略,并把决策周期设置为采样周期,在每个决策时刻,交通信号控制器接收路口机检测到的交通状态,进行归一化,计算归一化后的交通状态到每个质心的距离,求出距离最近的质心,根据质心对应的离散交通状态查询控制策略,得到控制动作并发送至路口机执行,其中所使用的策略迭代方法包含以下步骤:步骤a,设置迭代次数为1,初始化Q值和控制策略,计算状态转移矩阵和直接回报矩阵,把每个状态‑动作对的Q值初始化为零,保存在矩阵Q中,根据样本(s,a,s’,r)估算直接回报矩阵R1和R2,s表示某个采样时刻的交通状态,a表示离散交通状态为s时执行的控制动作,总共包含两种控制动作,控制动作a1是保持当前相位,控制动作a2是切换到下一相位,s’表示s之后下一个采样时刻的离散交通状态,r表示离散交通状态从s转移到s’的这个采样周期内获得的直接回报,计算公式如下:
其中,np表示一个采样周期内通过停车线的车辆数,R1,R2分别保存执行控制动作a1、a2后获得的直接回报的期望,Q,R1和R2的定义分别如下:![]()
其中,n表示所述步骤3中聚类时采用的质心数,Q(si,ak)表示状态‑动作对si‑ak的Q值,r(si,ak,sj)表示处于离散交通状态si,执行控制动作ak之后,转移到离散交通状态sj时获得的直接回报,i和j的取值范围都是[1,n]之间的整数,k的取值范围是整数1和2,初始化一个控制策略为任意策略,保存在矩阵Π中,Π的定义如下:
其中,π(si,ak)表示在离散状态si下执行动作ak的概率,Π的每行元素之和为1,根据样本(s,a,s’,r)估算状态转移矩阵P,定义如下:
其中,矩阵元素p(sj|si,ak)是条件概率,表示处于离散交通状态si,执行控制动作ak之后,下一个采样时刻转移到离散交通状态sj的概率,利用R1,R2和P中的元素,可以求出直接回报矩阵R,R的定义如下:
其中,r(si,ak)表示处于离散交通状态si,执行控制动作ak之后获得的直接回报的期望,计算公式如下:
步骤b,更新Q值,按照下式更新矩阵Q:Q=(I‑γPΠ)‑1R其中,I表示单位矩阵,γ是折扣因子,设置为0.95,()‑1表示对矩阵求逆;步骤c,根据Q值更新控制策略,按照下式更新矩阵Π中的元素:
步骤d,如果迭代次数为1,保存矩阵Π到一个同维矩阵Π',迭代次数加1,返回步骤b,否则,求解矩阵Π与矩阵Π'的差的二范数:D=||Π‑Π'||如果D等于0,则策略迭代结束,如果D不等于0,保存矩阵Π到矩阵Π',迭代次数加1,返回步骤b。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛大学,未经青岛大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610696748.9/,转载请声明来源钻瓜专利网。