[发明专利]一种基于深度强化学习的多乘客动态车辆路径优化方法有效

专利信息
申请号: 202110478381.4 申请日: 2021-04-30
公开(公告)号: CN113189998B 公开(公告)日: 2023-04-18
发明(设计)人: 刘玮;甘陈峰;王宁 申请(专利权)人: 武汉工程大学
主分类号: G05D1/02 分类号: G05D1/02;G06Q10/047;G06Q50/26;G06N3/09;G06N3/096
代理公司: 湖北武汉永嘉专利代理有限公司 42102 代理人: 唐万荣
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 乘客 动态 车辆 路径 优化 方法
【权利要求书】:

1.一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:包括以下步骤:

S1:构建车辆运行的状态动作空间;

S2:以车辆作为强化学习的主体,根据不同情况设定不同的奖励值和惩罚值;

具体步骤为:

设参与学习的车辆的状态为S,车辆在状态S下的动作为A,对车辆的动作的奖励或惩罚的值为R,车辆的状态发生改变的状态转移概率为P;定义四元组A,S,R,P和奖惩规则如下:

S=特殊区域且红灯,A=减速,R=-3;

S=普通区域,A=正常速度,R=-1;

S=终点,A=停止,R=10;

S=乘客上车或下车,A=停止,R=1;

S3:搭建具有经验回放机制的DQN算法,建立DQN深度神经网络,并训练车辆让实际Q值趋近目标Q值;

具体步骤为:

S31:设采用策略π在状态s下通过动作a得到的价值和状态动作价值函数为π(s,a),在状态s下通过动作a转移到状态s′的转移概率为通过动作a从状态s转移到状态s′获得的奖励为设折扣值为γ,折扣值越大表示越考虑未来的价值累计,折扣值为零表示只看当前步骤的奖励积累;建立状态s下的状态价值函数Vπ(s)为:

设在状态s′下采取动作a′的奖励为Qπ(s′,a′),则状态s下累计的状态动作价值函数Qπ(s)为:

用于评定车辆交互时状态的价值和动作的价值;

S32:在高维连续的状态动作空间中,通过相近的状态拟合相近的输出动作,得到每个状态动作对的Q值:

Q(s,a;ω)≈Q′(s,a);

S33:将Q-Learning计算得到的目标Q值作为标签,并训练车辆让实际Q值趋近目标Q值;

S4:进行监督学习,通过确定损失函数、梯度获得最优的动态车辆路径。

2.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S1中,具体步骤为:

设车辆的通行范围在道路的起点和终点之间;

在车辆的通行范围内设有车站、特殊区域、信号灯;

车站为行人的上下车地点,车站带有停车属性;

行人为参与交通的实体,分布在车站的附近,行人分别带有不同的通行计划属性;特殊区域分布在道路的两旁,车辆在经过特殊区域时进行减速操作;

信号灯用于控制交通。

3.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S4中,具体步骤为:

S41:采用Q-Learning确定损失函数为:

S42:设DQN算法收敛,使车辆在每个状态下选取到最好的动作的策略为π:

π(s)=arg maxa∈AQ(s,a);

S43:使用包括随机梯度下降的方法更新参数,从而优化函数直至获得稳定的全局奖励,得到车辆的最优动作序列和最优路线。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学,未经武汉工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110478381.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top