[发明专利]一种基于时间分配和强化学习的交通信号灯控制方法有效

申请号：	201910496635.8	申请日：	2019-06-10
公开（公告）号：	CN110164150B	公开（公告）日：	2020-07-24
发明（设计）人：	项超;蔡登;何晓飞;金仲明;黄建强;华先胜	申请（专利权）人：	浙江大学
主分类号：	G08G1/08	分类号：	G08G1/08;G08G1/01
代理公司：	杭州天勤知识产权代理有限公司 33224	代理人：	胡红娟
地址：	310013 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时间分配强化学习交通信号灯控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于时间分配和强化学习的交通信号灯控制方法，其特征在于，包括：

(1)配置仿真路口环境以及车流数据到交通模拟器，搭建基于强化学习框架的智能体网络；

(2)智能体网络根据路况状态产生下一信号周期的动作，并交由交通模拟器仿真一个信号周期；

所述路况状态包括：上一信号周期使用的配时向量、上一信号周期里每个相位结束时每条车道上的车队长度以及上一信号周期里各个方向上的车流量；

所述的动作记为其中，n表示一个信号周期里相位的个数，a₀表示在本信号周期里沿用上一信号周期里各个相位的配时，a_i(1≤i≤n)表示在延长相位i的持续时间的同时缩短其他相位的持续时间并使整个信号周期的长度不变；动作的每个动作选项表示一个把上一信号周期的配时向量映射成本信号周期的配时向量的映射，a₀表示恒等映射，动作选项a_i(1≤i≤n)对应的映射由如下公式表示：

其中，T_now表示本信号周期的配时向量；T_min是一个常向量，表示每一个相位的最短持续时间；T_last表示上一个信号周期的配时向量；t_free是一个常数，为一整个信号周期的长度和T_min里所有元素之和的差，表示可以自由分配的总时间；Δt是一个和配时改变幅度相关的超参数，一个较大的Δt在其他条件相同的情况下会导致配时较大的改变幅度；A_i是一个独热向量，第i个元素是Δt，其他元素都是0；

(3)把上一信号周期的经验存到重演缓存；所述的经验包括路况状态、动作和奖励；

(4)从重演缓存中采样经验训练智能体网络并更新网络参数；

(5)判断仿真的步数是否达到预设值，如果没有达到，则返回步骤(2)，否则执行步骤(6)；

(6)重置交通模拟器并对智能体网络进行测试，完成测试后进行交通信号灯控制的应用。

2.根据权利要求1所述的基于时间分配和强化学习的交通信号灯控制方法，其特征在于，所述智能体网络的结构如下：

输入模块由三部分组成：第一部分把上一信号周期的配时向量作为输入；第二部分采用一个带有两个卷积层的CNN模块把一个车流量张量转换成一个特征向量；第三部分采用一个平均池化模块计算每条车道在所有相位结束时的平均车队长度，把一个车队长度矩阵处理成一个向量；

输入的路况状态在通过这三个部分后得到三个向量，把三个向量拼接起来后得到了路况状态的向量表示；把这个路况状态的向量表示输给两个带双曲正切激活函数的全连接层后再输给一个不带激活函数的全连接层就得到了输出向量。

3.根据权利要求1所述的基于时间分配和强化学习的交通信号灯控制方法，其特征在于，步骤(1)中，所述的车流数据为人造的仿真车流数据或者真实道路上采集的车流数据。

4.根据权利要求1所述的基于时间分配和强化学习的交通信号灯控制方法，其特征在于，步骤(3)中，所述奖励的计算公式为：

R＝w₁De+w₂L+w₃W+w₄V+w₅Du

其中，De为上一信号周期中所有车道上平均延迟的和，L为上一信号周期中所有车道上平均车队长度的和，W为上一信号周期中所有车道上平均等待时间的和，V为上一信号周期中离开路口的总车数，Du为上一信号周期中所有离开路口的车辆的持续时间的和，w_i(1≤i≤5)都是超参数。

5.根据权利要求4所述的基于时间分配和强化学习的交通信号灯控制方法，其特征在于，每个车道的平均延时的计算公式如下：