[发明专利]一种具有位置感知的路口交通信号灯调控方法有效

申请号：	202011302815.7	申请日：	2020-11-19
公开（公告）号：	CN112489464B	公开（公告）日：	2022-06-28
发明（设计）人：	郭健;李克秋;郝建业	申请（专利权）人：	天津大学
主分类号：	G08G1/095	分类号：	G08G1/095;G08G1/081;G08G1/07
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	李素兰
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种具有位置感知路口交通信号灯调控方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种具有位置感知的路口交通信号灯调控方法，其特征在于，该方法包括以下具体实现过程：

步骤1、利用强化学习网络模型进行交通信号控制问题的数学建模：

将交通网络建模为图的形式并记为G：G＝(V,E)，V为路口的集合，E为连接两路口的边的集合；将每个路口看为一个智能体，共有N个路口；

根据交通信号控制问题定义了状态空间、动作空间、奖励如下：

状态空间记为S：s_t∈S为t时刻的系统状态，由交通信号网络中所有路口的交通状况信息组成；

观测空间记为O：为智能体i在t时刻的观测值；由两部分组成：(1)路口当前时刻所处的相位；(2)与路口相连的进入车道上车辆的数量；

动作空间记为A：为所有智能体在t时刻的联合动作a_i,t的集合；

奖励记为R：每个时刻r_i,t为每个智能体在t时刻的奖励；具体为智能体i所表示路口的进入车道中车辆总数的负值，即为t时刻在进入车道l中的车辆数量；

步骤2、进行智能体原始观测值o_i的预处理：

在t时刻，每个智能体的原始局部观测值为每个车道上的车辆数量和交通信号当前所处的相位的拼接向量，通过多层感知机将智能体i的k维原始观测值o_i^t映射到m维的隐空间中，输出的隐状态h_i,t∈R^m表示第i个路口在t时刻的交通状况，m为维度，公式如下：

其中，k为的特征信息维度，W_o∈R^k×m、b_o∈R^m分别为多层感知机隐藏层中的权重矩阵和偏置，σ为ReLU激活函数；

步骤3、获取智能体之间具有位置感知的边特征：

选择目标路口i的k维以内的全部路口作为邻居节点集N(i)，然后计算目标路口i与相邻路口j∈N(i)的欧式距离d(i,j)；基于坐标计算路口i和j之间的欧式距离d(i,j)计算公式如下：

d(i,j)＝f_距离(i,j；G_w)

将d(i,j)映射到在[0，1]范围内的数值p_i,j来表示路口之间的相对位置关系，公式如下：

最终得到边特征e_i,j＝(p_i,j,s_i,j)表示相邻路口j与目标路口i的相对位置和结构信息；

步骤4、实现智能体之间的Pos-Light消息传递模型，进行交通信息的融合，分为以下两个阶段：

1)边的特征信息与相邻路口信息的整合

对于任意的邻居路口j∈N(i)，N(i)为目标路口i的相邻路口集合e_i,j＝(p_i,j,s_i,j)为i,j的边的特征信息；针对两种类型的边的特征编码邻居路口的交通信息，表达式如下：

其中，使用多层感知机保留了相邻路口j相对于目标路口i的空间结构信息s_i,j∈R^l，l为目标路口的邻居节点个数，W_s∈R^l×m为网络的权重矩阵，b_s∈R^m为网络的偏置，

汇总邻居路口的交通消息和然后对总信息进行编码以获得相邻路口j的包含位置信息的最终交通消息h_i,j，表达式如下：

其中，W_e∈R^m×n为网络的权重矩阵，b_e∈Rⁿ为网络的偏置，h_i.j∈Rⁿ为相邻路口j对于目标路口i的位置信息；

2)更新目标路口的交通状况表征：

在此阶段，通过聚合目标路口i周边的交通信息来更新每个路口的交通状况表征

其中，W_h∈R^n×c为网络的权重矩阵，b_h∈R^c为网络偏置，聚合了目标路口i周围交通状况的重要信息，使智能体能够更高效的进行决策；

步骤5、实现Q网络的路口交通信号灯调控决策：

对于每个智能体即目标路口i，将输入Q网络，智能体根据Q网络的输出，使用ε-贪心算法来选择动作，即令ε＝p,p∈[0,1]，在[0,1]范围内生成随机数q，如果q＜ε＝p，则从可选动作中随机选择一个动作，否则选择使Q值最大的动作为当前时刻智能体的动作；

在t时刻，每个智能体的Q值为：

其中，W_d∈R^c×d为Q网络的权重矩阵，b_d∈R^d为Q网络的偏置，d为动作空间的大小，Q_i,t∈R^|A|，Q_i,t(a)为动作a对应的Q值；

步骤6、进行基于Q网络的调控目标训练：

将每个t时刻的转移序列(s_t,a_t,s_t+1,r_t)存储到经验池D中，其中全局观测值联合动作奖励

更新模型的损失函数为：

y_i,t＝r_i,t+γmax_a′Q_i,t+1(a′；^tar)

其中，T为用于模型更新的时间步总数，N为整个交通网络中的路口总数，算法根据损失函数的更新公式来更新训练网络中的参数每经过g轮迭代后，将预测网络中的参数复制给目标网络中的参数

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011302815.7/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载