[发明专利]一种基于强化学习模型的共享汽车平衡方法在审

专利信息
申请号: 202011317789.5 申请日: 2020-11-23
公开(公告)号: CN112508356A 公开(公告)日: 2021-03-16
发明(设计)人: 顾钊铨;方滨兴;贾焰;任昌伟;王乐;仇晶;韩伟红;李树栋 申请(专利权)人: 广州大学
主分类号: G06Q10/06 分类号: G06Q10/06;G06Q30/02;G06Q30/06;G06N3/04;G06N3/08
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 雷芬芬;黄磊
地址: 510006 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 模型 共享 汽车 平衡 方法
【权利要求书】:

1.一种基于强化学习模型的共享汽车平衡方法,其特征在于,包括:

S1,接收用户的待用车请求或者待还车请求;

S2,将待用车请求或者待还车请求输入预先建立好的强化学习模型,强化学习模型输出各个站点的用车奖励金或者还车奖励金;

S3,用户遍历包含他自身的预设网格区域,在提供奖励金最多的站点进行取车或者还车。

2.根据权利要求1所述的基于强化学习模型的共享汽车平衡方法,其特征在于,建立强化学习模型包括:

将共享汽车的租赁区域划分为网格状,其中每一个网格代表一个共享汽车的租赁点;其中每个网格中有固定的共享汽车停放数目,并且将s作为该站点的剩余车辆的数目;

建立马尔可夫决策过程,包含四元组(S,A,R,γ),其中S表示每个时刻的各个站点的车辆信息集合,由{s1,s2,...,sn}组成,si表示每个站点当前的车辆信息,具体表示为每一个车站的剩余车辆数量,A为各个站点为用户提供的取车奖励金和还车奖励金,由At=(pt1t,pt2t,...,ptnt,ps1t,ps2t,...,psnt)表示,其中ptit表示t时间段第i个站点取车的奖励金额,psit表示t时间段内第i个站点的停车奖励金额;R表示奖赏值,γ表示未来的reward所占的权重;

采用探索序列来学习奖励金的发放方式。

3.根据权利要求2所述的基于强化学习模型的共享汽车平衡方法,其特征在于,采用探索序列来学习奖励金的发放方式包括:

将一天划分为24个时间间隔,并在每天的0点对整个区域各共享汽车站点进行车辆数量的初始化,用S0来表示初始时刻的状态;在开始当前时间间隔时,通过强化学习算法计算得到每个站点的取车奖励和还车奖励A0;当产生一条用户的用车请求时,通过遍历包含他自身的预设网格区域中,在提供奖励金最多的站点进行取车;当产生一条用户还车请求时,用户会遍历他目标还车区域的预设区域的提供奖励金最高的站点进行取车;采取一段时间内的用户用车请求数据进行模型训练;其中每一条用户的用户用车请求包括用户id,时间,起始位置,终点位置,预计驾车时间,花费金额;通过计算一段时间内用户的用车情况,得到一段时间内用户订单的服务率R0,以及下一个时刻的车辆分布状态的表示S1,并重复以上步骤得到A1,R1,S2,A2,R2

4.根据权利要求3所述的基于强化学习模型的共享汽车平衡方法,其特征在于,建立强化学习模型之后还包括:训练强化学习模型。

5.根据权利要求4所述的基于强化学习模型的共享汽车平衡方法,其特征在于,训练强化学习模型包括采用DDPG算法来训练深度强化学习模型,具体为:

S21,建立actor网络和critic网络,并建立actor网络和critic网络分别对应的副本target critic网络和target actor网络;随机初始化critic网络Q(s,a|θQ),和actor网络μ(s|θμ);初始化target critic网络Q′、target actor网络μ′,target critic网络权重θQ′和target actor网络权重θμ′,并将critic网络和actor网络的初始参数θQ和θμ′的值分别赋予target critic网络和target actor网络的参数;

S22,初始化经验回放池B;

S23,对于每个情节进行如下循环操作;

S24,初始化原始的车辆分布状态S0和一个随机探测噪声用于动作空间的探索;

S25,对于每个时间间隔(timestamp),进行如下循环操作:

S251,利用当前的策略μ和探测噪声根据当前车辆分布状态来决定每个站点的取车奖励金和还车奖励金:

S252,根据设置的奖励金,得到该时间段结束后对应的奖赏rt和下一个状态st+1

S253,将转移状态向量(st,at,rt,st+1)放入经验回放池中;

S254,在经验回放池中选择大小为N批量的训练样本(si,ai,ri,si+1);

S255,计算当前状态-动作对的Q值:Q(si,aiQ);

S256,通过actor网络获得下一个状态的动作:ai+1=μ′(si+1μ′);

S257,计算下一个状态-动作对的Q值:Q′(si+1,ai+1Q′);

S258,通过时序查分来更新critic网络,L=∑(yi-Q(si,ai))2/N,其中yi=ri+γQ′(si+1,ai+1);

S258,通过策略梯度来更新actor网络参数:

S2510,更新target网络的参数:

θQ′←τθQ+(1-τ)θQ′

θμ′←τθμ+(1-τ)θμ′

通过上述强化学习DDPG算法,训练学习得到一个自适应的奖励金计算模型,即强化学习模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011317789.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top