[发明专利]一种基于深度强化学习的多乘客动态车辆路径优化方法有效
申请号: | 202110478381.4 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113189998B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 刘玮;甘陈峰;王宁 | 申请(专利权)人: | 武汉工程大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06Q10/047;G06Q50/26;G06N3/09;G06N3/096 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 唐万荣 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 乘客 动态 车辆 路径 优化 方法 | ||
1.一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:包括以下步骤:
S1:构建车辆运行的状态动作空间;
S2:以车辆作为强化学习的主体,根据不同情况设定不同的奖励值和惩罚值;
具体步骤为:
设参与学习的车辆的状态为S,车辆在状态S下的动作为A,对车辆的动作的奖励或惩罚的值为R,车辆的状态发生改变的状态转移概率为P;定义四元组A,S,R,P和奖惩规则如下:
S=特殊区域且红灯,A=减速,R=-3;
S=普通区域,A=正常速度,R=-1;
S=终点,A=停止,R=10;
S=乘客上车或下车,A=停止,R=1;
S3:搭建具有经验回放机制的DQN算法,建立DQN深度神经网络,并训练车辆让实际Q值趋近目标Q值;
具体步骤为:
S31:设采用策略π在状态s下通过动作a得到的价值和状态动作价值函数为π(s,a),在状态s下通过动作a转移到状态s′的转移概率为通过动作a从状态s转移到状态s′获得的奖励为设折扣值为γ,折扣值越大表示越考虑未来的价值累计,折扣值为零表示只看当前步骤的奖励积累;建立状态s下的状态价值函数Vπ(s)为:
设在状态s′下采取动作a′的奖励为Qπ(s′,a′),则状态s下累计的状态动作价值函数Qπ(s)为:
用于评定车辆交互时状态的价值和动作的价值;
S32:在高维连续的状态动作空间中,通过相近的状态拟合相近的输出动作,得到每个状态动作对的Q值:
Q(s,a;ω)≈Q′(s,a);
S33:将Q-Learning计算得到的目标Q值作为标签,并训练车辆让实际Q值趋近目标Q值;
S4:进行监督学习,通过确定损失函数、梯度获得最优的动态车辆路径。
2.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S1中,具体步骤为:
设车辆的通行范围在道路的起点和终点之间;
在车辆的通行范围内设有车站、特殊区域、信号灯;
车站为行人的上下车地点,车站带有停车属性;
行人为参与交通的实体,分布在车站的附近,行人分别带有不同的通行计划属性;特殊区域分布在道路的两旁,车辆在经过特殊区域时进行减速操作;
信号灯用于控制交通。
3.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S4中,具体步骤为:
S41:采用Q-Learning确定损失函数为:
S42:设DQN算法收敛,使车辆在每个状态下选取到最好的动作的策略为π:
π(s)=arg maxa∈AQ(s,a);
S43:使用包括随机梯度下降的方法更新参数,从而优化函数直至获得稳定的全局奖励,得到车辆的最优动作序列和最优路线。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学,未经武汉工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110478381.4/1.html,转载请声明来源钻瓜专利网。