[发明专利]用于驾驶员奖酬的强化学习方法：用于驾驶员-系统互动的生成性对抗网络在审

申请号：	201980097527.1	申请日：	2019-06-14
公开（公告）号：	CN114303162A	公开（公告）日：	2022-04-08
发明（设计）人：	尚文杰;李卿阳;秦志伟;孟一平;俞扬;叶杰平	申请（专利权）人：	北京嘀嘀无限科技发展有限公司
主分类号：	G06Q10/02	分类号：	G06Q10/02
代理公司：	成都七星天知识产权代理有限公司 51253	代理人：	袁春晓
地址：	100193 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于驾驶员强化学习方法系统互动生成对抗网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

描述了一种确定政策以防止流逝驾驶员的系统和方法。该系统和方法创建了诸如在运输叫车系统中向驾驶员提供的优惠券的奖酬以及驾驶员响应于奖酬的对应状态的虚拟轨迹。从奖酬政策、混杂奖酬政策和奖酬对象政策中创建联合政策模拟器，以生成驾驶员响应不同奖酬的模拟行动。驾驶员模拟的行动的奖励由判别器确定。基于由联合政策模拟器和判别器生成的虚拟轨迹，通过强化学习来优化用于防止流逝驾驶员的奖酬政策。

技术领域

本申请与运输叫车管理服务相关联。特别是，本申请针对的是一种在运输叫车系统中以电子方式向驾驶员提供奖酬的系统。

背景技术

最近，运输叫车系统已经变得很普遍，该运输叫车系统基于经由带有网络通信的电子设备上的应用程序来匹配驾驶员和乘客的模式。此类运输叫车服务的成功取决于吸引乘客和留住驾驶员。因此，运输叫车公司已经设立了跟踪乘客和驾驶员的系统，以便对如何最好地留住这两者进行分析。此类公司发现预测驾驶员模式是有利的，因此对驾驶员制定了有针对性的奖酬，以继续为运输叫车服务驾驶。

运输叫车服务依赖于有足够数量的符合运输服务平台的基于网络的应用的驾驶员注册，以满足乘客的需求。一个问题是所谓的流逝驾驶员，即参与度下降的驾驶员，诸如与以前的驾驶频率或时间长度的高峰相比，驾驶频率或时间长度下降。根据驾驶员的生命周期演化模型，流逝驾驶员数量在所有活跃的驾驶员中占了不可忽视的比例。因此，流逝驾驶员干预项目的目标是有效地奖酬流逝驾驶员，以增加他们的驾驶频率。这种奖酬的一个实施例是个性化的优惠券，奖励流逝驾驶员增加他们的驾驶频率。奖酬政策或策略可以使用机器学习、强化学习、数据挖掘和其他人工智能技术来制定，以刺激驾驶员的积极性。奖酬优惠券通常包括设定的金额，一旦驾驶员在设定的时间段中完成了特定数量的旅行，就可以兑现。

由于强化学习的多功能性，许多基于决策过程的任务可以应用强化学习方法来优化策略，如选择哪些驾驶员提供优惠券。可以收集运输叫车应用系统中积累的普通历史互动数据。然而，目前的强化学习算法在很大程度上依赖于大规模抽样，由于抽样效率低，成本高，在驾驶员和乘客的真实物理世界中会受到严重的制约。这项任务的关键目的是利用只有历史数据的强化方法来优化策略。

基于上述使用强化学习方法只用历史数据优化策略的目标，挑战在于历史数据是静态的。静态数据实际上是在乘客驾驶员互动的历史中执行的某种奖酬政策生成的。静态数据不能用来直接评估从初始政策改进后的不同政策，而这正是强化学习过程的关键步骤。

一般来说，使用历史数据来训练奖酬政策主要集中在模仿学习上。传统的模仿学习方法通常有两种，行为克隆和逆向强化学习。行为克隆将历史数据格式化为有监督的学习样本，使用有监督的机器学习来推导策略。逆向强化学习是基于历史数据对应于最大奖励的虚假设。迭代地，从数据中推断出奖励函数，然后进行强化学习，训练神经网络来执行奖酬政策。

上述方法是基于这样的虚假设：历史数据是由最优策略生成的，同时，最终学到的策略只是历史策略的近似值。不幸的是，历史策略在干预以防止流逝驾驶员的任务中并不是最优的。从直观上看，经过训练的策略很可能再次选择历史上执行过的低效甚至无用的干预行动，这对于防止流逝驾驶员绝对是无意义的。因此，以前的模仿学习方法不能直接用于学习改变驾驶员行为的有效奖酬政策。最后但并非最不重要的是，驾驶员干预的场景是动态的，而且更加复杂。驾驶员的活动不仅受到自身的影响，而且还受到一些外部干扰因素的影响。这种外部干扰因素是影响驾驶员决策和表现的外部环境。这种因素可能包括竞争性的运输服务，天气，或高需求时间，诸如节假日。这些外部干扰因素可能对驾驶员政策或驾驶员行为生成影响。由于这些因素，确定一种模拟驾驶员互动的算法，用于驾驶员、奖酬政策和竞争对手的直接互动和优化，是相当具有挑战性的。因此，有必要使用机器学习来确定基于现有历史数据的最优驾驶员奖酬政策。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司，未经北京嘀嘀无限科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201980097527.1/2.html，转载请声明来源钻瓜专利网。

上一篇：运动护目镜
下一篇：一种体声波谐振装置及一种体声波滤波器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于驾驶员奖酬的强化学习方法：用于驾驶员-系统互动的生成性对抗网络在审

专利文献下载