[发明专利]一种基于深度Q网络的交通灯控制方法、终端及存储介质有效
申请号: | 202110965916.0 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113870588B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 刘博 | 申请(专利权)人: | 深圳市人工智能与机器人研究院 |
主分类号: | G08G1/08 | 分类号: | G08G1/08;G08G1/081;G06N3/04;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 朱阳波 |
地址: | 518060 广东省深圳市龙岗区坂*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 网络 交通灯 控制 方法 终端 存储 介质 | ||
1.一种基于深度Q网络的交通灯控制方法,其特征在于,所述基于深度Q网络的交通灯控制方法包括以下步骤:
获取预设区域内各路口的交通灯信息,并根据所述交通灯信息得到所述预设区域内的通信拓扑网络;
获取交通灯状态信息和交通灯四周的车流状态信息;其中,所述车流状态信息包括:车辆位置信息和车辆速度信息;
根据所述通信拓扑网络、所述交通灯状态信息以及所述交通灯四周的车流状态信息构建去中心化的深度Q网络交通灯控制模型;
根据所述深度Q网络交通灯控制模型和一致性算法对所述预设区域内的交通灯进行控制;
所述根据所述深度Q网络交通灯控制模型和一致性算法对所述预设区域内的交通灯进行控制,包括:
在对各交通灯进行控制时,初始化每个交通灯的深度Q网络参数和模型训练参数;其中,所述模型训练参数包括:学习率η、折扣因子γ、贪心策略中的ε、迭代总次数T以及当前迭代次数t;
根据所述通信拓扑网络将所述交通灯与相邻交通灯进行通信,并向所述相邻交通灯分享优化后的深度Q网络参数,并通过一致性算法更新所述预设区域内所有交通灯的深度Q网络参数;
所述通过一致性算法更新所述预设区域内所有交通灯的深度Q网络参数,包括:
通过所述一致性算法更新所述预设区域内所有交通灯的深度Q网络参数θ′=[θ'1,θ'2,...,θ'N]∈Rm×s;
其中,N为所述通信拓扑网络中交通灯的总数量;
所述一致性算法为:
θ′=[θ'1,θ'2,...,θ'N]和θ″=[θ″1,θ″2,...,θ″N]分别为所述一致性算法过程前后的所有交通灯的Q网络参数矩阵;
W=[wij]∈RN×N为权重连接矩阵;
为克罗内克积;
Im∈Rm×m为单位矩阵。
2.根据权利要求1所述的基于深度Q网络的交通灯控制方法,其特征在于,所述获取预设区域内各路口的交通灯信息,并根据所述交通灯信息得到所述预设区域内的通信拓扑网络,包括:
获取城市交通路网信息,并根据所述城市交通路网信息确定所述预设区域;
获取所述预设区域内各路口的交通灯信息,并根据所述交通灯信息得到所述预设区域内的通信拓扑网络;
其中,所述通信拓扑网络为包含所述预设区域内所有交通灯的去中心化的通信拓扑网络。
3.根据权利要求1所述的基于深度Q网络的交通灯控制方法,其特征在于,所述获取交通灯状态信息和交通灯四周的车流状态信息,包括:
根据所述通信拓扑网络确定所述交通灯对应的摄像头、雷达以及地感线圈;
获取所述交通灯状态信息,并通过所述摄像头、所述雷达以及所述地感线圈获取所述交通灯四周的车流状态信息;
对所述交通灯状态信息和所述交通灯四周的车流状态信息进行数字化处理。
4.根据权利要求1所述的基于深度Q网络的交通灯控制方法,其特征在于,所述根据所述通信拓扑网络、所述交通灯状态信息以及所述交通灯四周的车流状态信息构建去中心化的深度Q网络交通灯控制模型,包括:
将所述交通灯状态信息与所述交通灯四周的车流状态信息进行融合,得到融合信息;
结合交通灯动作,将所述融合信息代入卷积神经网络和多层神经网络中,计算得到所述交通灯动作在当前车流状态下和交通灯状态下的价值Q(s,α;θ);
根据所述价值Q(s,α;θ)得到当前交通状态下交通灯的最佳交通灯动作
其中,θ为深度Q网络模型参数,s和α分别为当前车流状态和交通灯动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市人工智能与机器人研究院,未经深圳市人工智能与机器人研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110965916.0/1.html,转载请声明来源钻瓜专利网。