[发明专利]一种基于强化学习模型的共享汽车平衡方法在审
申请号: | 202011317789.5 | 申请日: | 2020-11-23 |
公开(公告)号: | CN112508356A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 顾钊铨;方滨兴;贾焰;任昌伟;王乐;仇晶;韩伟红;李树栋 | 申请(专利权)人: | 广州大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q30/02;G06Q30/06;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 雷芬芬;黄磊 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 模型 共享 汽车 平衡 方法 | ||
1.一种基于强化学习模型的共享汽车平衡方法,其特征在于,包括:
S1,接收用户的待用车请求或者待还车请求;
S2,将待用车请求或者待还车请求输入预先建立好的强化学习模型,强化学习模型输出各个站点的用车奖励金或者还车奖励金;
S3,用户遍历包含他自身的预设网格区域,在提供奖励金最多的站点进行取车或者还车。
2.根据权利要求1所述的基于强化学习模型的共享汽车平衡方法,其特征在于,建立强化学习模型包括:
将共享汽车的租赁区域划分为网格状,其中每一个网格代表一个共享汽车的租赁点;其中每个网格中有固定的共享汽车停放数目,并且将s作为该站点的剩余车辆的数目;
建立马尔可夫决策过程,包含四元组(S,A,R,γ),其中S表示每个时刻的各个站点的车辆信息集合,由{s1,s2,...,sn}组成,si表示每个站点当前的车辆信息,具体表示为每一个车站的剩余车辆数量,A为各个站点为用户提供的取车奖励金和还车奖励金,由At=(pt1t,pt2t,...,ptnt,ps1t,ps2t,...,psnt)表示,其中ptit表示t时间段第i个站点取车的奖励金额,psit表示t时间段内第i个站点的停车奖励金额;R表示奖赏值,γ表示未来的reward所占的权重;
采用探索序列来学习奖励金的发放方式。
3.根据权利要求2所述的基于强化学习模型的共享汽车平衡方法,其特征在于,采用探索序列来学习奖励金的发放方式包括:
将一天划分为24个时间间隔,并在每天的0点对整个区域各共享汽车站点进行车辆数量的初始化,用S0来表示初始时刻的状态;在开始当前时间间隔时,通过强化学习算法计算得到每个站点的取车奖励和还车奖励A0;当产生一条用户的用车请求时,通过遍历包含他自身的预设网格区域中,在提供奖励金最多的站点进行取车;当产生一条用户还车请求时,用户会遍历他目标还车区域的预设区域的提供奖励金最高的站点进行取车;采取一段时间内的用户用车请求数据进行模型训练;其中每一条用户的用户用车请求包括用户id,时间,起始位置,终点位置,预计驾车时间,花费金额;通过计算一段时间内用户的用车情况,得到一段时间内用户订单的服务率R0,以及下一个时刻的车辆分布状态的表示S1,并重复以上步骤得到A1,R1,S2,A2,R2。
4.根据权利要求3所述的基于强化学习模型的共享汽车平衡方法,其特征在于,建立强化学习模型之后还包括:训练强化学习模型。
5.根据权利要求4所述的基于强化学习模型的共享汽车平衡方法,其特征在于,训练强化学习模型包括采用DDPG算法来训练深度强化学习模型,具体为:
S21,建立actor网络和critic网络,并建立actor网络和critic网络分别对应的副本target critic网络和target actor网络;随机初始化critic网络Q(s,a|θQ),和actor网络μ(s|θμ);初始化target critic网络Q′、target actor网络μ′,target critic网络权重θQ′和target actor网络权重θμ′,并将critic网络和actor网络的初始参数θQ和θμ′的值分别赋予target critic网络和target actor网络的参数;
S22,初始化经验回放池B;
S23,对于每个情节进行如下循环操作;
S24,初始化原始的车辆分布状态S0和一个随机探测噪声用于动作空间的探索;
S25,对于每个时间间隔(timestamp),进行如下循环操作:
S251,利用当前的策略μ和探测噪声根据当前车辆分布状态来决定每个站点的取车奖励金和还车奖励金:
S252,根据设置的奖励金,得到该时间段结束后对应的奖赏rt和下一个状态st+1;
S253,将转移状态向量(st,at,rt,st+1)放入经验回放池中;
S254,在经验回放池中选择大小为N批量的训练样本(si,ai,ri,si+1);
S255,计算当前状态-动作对的Q值:Q(si,ai|θQ);
S256,通过actor网络获得下一个状态的动作:ai+1=μ′(si+1|θμ′);
S257,计算下一个状态-动作对的Q值:Q′(si+1,ai+1|θQ′);
S258,通过时序查分来更新critic网络,L=∑(yi-Q(si,ai))2/N,其中yi=ri+γQ′(si+1,ai+1);
S258,通过策略梯度来更新actor网络参数:
S2510,更新target网络的参数:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
通过上述强化学习DDPG算法,训练学习得到一个自适应的奖励金计算模型,即强化学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011317789.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种旋转式酒槽制造装置
- 下一篇:一种自动调节给棉速度的给棉装置
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理