[发明专利]一种基于强化学习模型的共享汽车平衡方法在审

申请号：	202011317789.5	申请日：	2020-11-23
公开（公告）号：	CN112508356A	公开（公告）日：	2021-03-16
发明（设计）人：	顾钊铨;方滨兴;贾焰;任昌伟;王乐;仇晶;韩伟红;李树栋	申请（专利权）人：	广州大学
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06Q30/02;G06Q30/06;G06N3/04;G06N3/08
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	雷芬芬;黄磊
地址：	510006 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习模型共享汽车平衡方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习模型的共享汽车平衡方法，其特征在于，包括：

S1，接收用户的待用车请求或者待还车请求；

S2，将待用车请求或者待还车请求输入预先建立好的强化学习模型，强化学习模型输出各个站点的用车奖励金或者还车奖励金；

S3，用户遍历包含他自身的预设网格区域，在提供奖励金最多的站点进行取车或者还车。

2.根据权利要求1所述的基于强化学习模型的共享汽车平衡方法，其特征在于，建立强化学习模型包括：

将共享汽车的租赁区域划分为网格状，其中每一个网格代表一个共享汽车的租赁点；其中每个网格中有固定的共享汽车停放数目，并且将s作为该站点的剩余车辆的数目；

建立马尔可夫决策过程，包含四元组(S，A，R，γ)，其中S表示每个时刻的各个站点的车辆信息集合，由{s₁，s₂，...，s_n}组成，s_i表示每个站点当前的车辆信息，具体表示为每一个车站的剩余车辆数量，A为各个站点为用户提供的取车奖励金和还车奖励金，由A_t＝(pt_1t，pt_2t，...，pt_nt，ps_1t，ps_2t，...，ps_nt)表示，其中pt_it表示t时间段第i个站点取车的奖励金额，ps_it表示t时间段内第i个站点的停车奖励金额；R表示奖赏值，γ表示未来的reward所占的权重；

采用探索序列来学习奖励金的发放方式。

3.根据权利要求2所述的基于强化学习模型的共享汽车平衡方法，其特征在于，采用探索序列来学习奖励金的发放方式包括：

将一天划分为24个时间间隔，并在每天的0点对整个区域各共享汽车站点进行车辆数量的初始化，用S₀来表示初始时刻的状态；在开始当前时间间隔时，通过强化学习算法计算得到每个站点的取车奖励和还车奖励A₀；当产生一条用户的用车请求时，通过遍历包含他自身的预设网格区域中，在提供奖励金最多的站点进行取车；当产生一条用户还车请求时，用户会遍历他目标还车区域的预设区域的提供奖励金最高的站点进行取车；采取一段时间内的用户用车请求数据进行模型训练；其中每一条用户的用户用车请求包括用户id，时间，起始位置，终点位置，预计驾车时间，花费金额；通过计算一段时间内用户的用车情况，得到一段时间内用户订单的服务率R₀，以及下一个时刻的车辆分布状态的表示S₁，并重复以上步骤得到A₁，R₁，S₂，A₂，R₂。

4.根据权利要求3所述的基于强化学习模型的共享汽车平衡方法，其特征在于，建立强化学习模型之后还包括：训练强化学习模型。

5.根据权利要求4所述的基于强化学习模型的共享汽车平衡方法，其特征在于，训练强化学习模型包括采用DDPG算法来训练深度强化学习模型，具体为：

S21，建立actor网络和critic网络，并建立actor网络和critic网络分别对应的副本target critic网络和target actor网络；随机初始化critic网络Q(s，a|θ^Q)，和actor网络μ(s|θ^μ)；初始化target critic网络Q′、target actor网络μ′，target critic网络权重θ^Q′和target actor网络权重θ^μ′，并将critic网络和actor网络的初始参数θ^Q和θ^μ′的值分别赋予target critic网络和target actor网络的参数；

S22，初始化经验回放池B；

S23，对于每个情节进行如下循环操作；

S24，初始化原始的车辆分布状态S₀和一个随机探测噪声用于动作空间的探索；

S25，对于每个时间间隔(timestamp)，进行如下循环操作：

S251，利用当前的策略μ和探测噪声根据当前车辆分布状态来决定每个站点的取车奖励金和还车奖励金：

S252，根据设置的奖励金，得到该时间段结束后对应的奖赏r_t和下一个状态s_t+1；

S253，将转移状态向量(s_t，a_t，r_t，s_t+1)放入经验回放池中；

S254，在经验回放池中选择大小为N批量的训练样本(s_i，a_i，r_i，s_i+1)；

S255，计算当前状态-动作对的Q值：Q(s_i，a_i|θ^Q)；

S256，通过actor网络获得下一个状态的动作：a_i+1＝μ′(s_i+1|θ^μ′)；

S257，计算下一个状态-动作对的Q值：Q′(s_i+1，a_i+1|θ^Q′)；

S258，通过时序查分来更新critic网络，L＝∑(y_i-Q(s_i，a_i))²/N，其中y_i＝r_i+γQ′(s_i+1，a_i+1)；