[发明专利]基于强化学习和交通车道竞争理论的交通控制方法及系统在审
申请号: | 201911312836.4 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111091711A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 薛贵荣;徐凯 | 申请(专利权)人: | 上海天壤智能科技有限公司 |
主分类号: | G08G1/01 | 分类号: | G08G1/01 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 201100 上海市闵行*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 交通 车道 竞争 理论 控制 方法 系统 | ||
1.一种基于强化学习和交通车道竞争理论的交通控制方法,其特征在于,包括:
初始化步骤:定义交通信号控制问题中各个变量,初始化交通信号控制算法模型;
智能体构造步骤:构造交通信号控制算法模型,优化决策降低通行时间计算方法;
网络结构构造步骤:构造交通信号控制算法模型的网络结构,确定交通信号控制算法模型在从初始状态到能够输出优化的交通信号控制决策的过程中,所需要迭代更新的参数;
交通车道阶段竞争的信号控制方法构造步骤:基于交通车道阶段竞争理论构造交通信号控制算法模型的计算逻辑,获得奖励函数的输出,提升交通信号控制算法模型的效果;
行为更新步骤:根据构建的交通信号控制算法模型中奖励函数,进行迭代计算,得到训练后的交通信号控制算法模型;
预测结果计算步骤:根据训练后的交通信号控制算法模型计算出预测的交通信号控制策略;
所述交通信号控制算法模型:通过算法来实现交通信号的控制,交通信号的控制策略是算法计算出来的;
所述奖励函数:交通信号算法通过结合强化学习实现的。
2.根据权利要求1所述的一种基于强化学习和交通车道竞争理论的交通控制方法,其特征在于,所述初始化步骤包括:
所述定义交通信号控制算法模型的必要参数包括:交通车道定义、交通运动定义、交通运动信号定义和交通阶段定义;
所述交通车道定义包括:每个交叉路口有四个车道,四个车道包括东、西、南和北,分别表示为E、S、W和N;
所述交通运动定义包括:以某一方向运动的车辆;
所述交通运动信号定义包括:车辆被允许行驶设为1,不允许行驶设为0;
所述交通阶段定义包括:以预设个单位字节向量P来表示交通阶段的组合,每个单位向量代表一个路口的交通信号灯情况。
3.根据权利要求1所述的一种基于强化学习和交通车道竞争理论的交通控制方法,其特征在于,所述智能体构造步骤包括:构造交通信号控制算法模型,优化决策降低通行时间计算方法;
智能体通过学习一个优化决策降低通行时间,将本优化决策降低通行时间描述为一个马尔可夫决策问题,优化决策降低通行时间计算公式如下:
状态S、行为A和奖励R,则S×A→R;
其中,Gt表示车辆队列长度,即优化决策降低通行时间;下标t表示时刻;γ表示系数;∞表示正无穷;
所述网络结构构造步骤包括:应用Ape-X深度Q-学习网络构造交通信号控制算法模型的计算框架。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海天壤智能科技有限公司,未经上海天壤智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911312836.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油藏开发动态预警方法
- 下一篇:环保塑料包装袋