[发明专利]一种基于交互式强化学习的订单分派方法及系统在审

申请号：	202011432387.X	申请日：	2020-12-10
公开（公告）号：	CN112396501A	公开（公告）日：	2021-02-23
发明（设计）人：	金铭;王洋;须成忠	申请（专利权）人：	中国科学院深圳先进技术研究院
主分类号：	G06Q30/06	分类号：	G06Q30/06;G06Q50/30;G06N20/00
代理公司：	深圳市科进知识产权代理事务所(普通合伙) 44316	代理人：	魏毅宏
地址：	518055 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于交互式强化学习订单分派方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及互联网信息技术领域，特别涉及一种基于交互式强化学习的订单分派方法及系统；本发明在自主学习过程中引入人机交互，融合人类演示、干扰、评价的人机交互模式，从人类演示中学习，通过人类演示的真实数据，能够更好地模拟真实的订单分派场景；从人类干扰中学习，当自主学习过程中出现错误动作时，控制智能体的性能，避免出现错误结果；从人类评估中学习，通过人工评价自主学习结果，使学习过程向更好的订单分派策略方向偏移，加快学习过程，从而得到最优的订单分派策略。

技术领域

本发明涉及互联网信息技术领域，特别涉及一种基于交互式强化学习的订单分派方法及系统。

背景技术

在线打车应用和平台已经成为一种新颖而流行的、通过移动应用按需提供交通服务的方式。目前，滴滴、Uber、Lyft等一些打车移动应用程序在全世界范围内广受欢迎，系统每天都会为大量乘客提供服务，并产生大量的叫车订单，例如中国最大的网约车服务提供商滴滴，每天需处理约1100万份订单，在线打车服务的订单分派问题本质上是潜在乘客和司机的合理匹配，在这种场景下，在线用户到达后，需要为其分配一个最佳服务提供者。在许多情况下，服务是可重用的，服务提供者与用户匹配后将消失一段时间，用户使用完服务后将重新加入系统。在这里，离线的服务提供者是不同的司机，当一个潜在乘客发送请求后，系统会将其与附近的司机匹配，大多数情况下，司机会重新加入系统，完成服务后可以再次匹配。

现有的订单分派技术主要为基于强化学习的自主学习方式，构建马尔科夫决策过程，设定智能体、环境状态、智能体动作，并依据环境状态和智能体动作构建状态转移函数和奖励函数，据此训练出最优决策，使订单分派的总体效益最大。

现有技术基本都为通过传统的强化学习与环境的交互，进行完全自主的训练和学习过程，然而这种完全自主学习的方式缺少人的参与，学习过程需要耗费大量时间；学习过程中不能控制智能体的行为，可能出现错误的结果；学习结果难以模拟复杂的真实场景。

发明内容

本发明主要解决的技术问题是提供一种基于交互式强化学习的订单分派方法，在自主学习过程中引入人机交互，融合人类演示、干扰、评价的人机交互模式，从人类演示中学习，通过人类演示的真实数据，能够更好地模拟真实的订单分派场景；从人类干扰中学习，当自主学习过程中出现错误动作时，控制智能体的性能，避免出现错误结果；从人类评估中学习，通过人工评价自主学习结果，使学习过程向更好的订单分派策略方向偏移，加快学习过程，从而得到最优的订单分派策略；还提供了一种基于交互式强化学习的订单分派系统。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于交互式强化学习的订单分派方法，其中，包括如下步骤：

步骤S1、对订单分派任务建模进行模仿训练；

步骤S2、在状态和动作的序列方面提供模仿人类行为的订单分派的演示实例，通过自主学习模仿人类演示的订单分派策略行为；

步骤S3、在进入灾难性状态或人类不满意的错误状态中，通过自主学习模仿人类干预的行为；

步骤S4、通过自主学习模仿人类的评价反馈的行为；

步骤S5、进入纯强化学习阶段进行训练，从而得到最优的订单分派策略。

作为本发明的一种改进，在步骤S2内，当产生了人类演示数据时，从人类的演示中收集订单分派的演示记录，使用高斯回归训练该人类演示数据，从而训练出订单分派策略。

作为本发明的进一步改进，在步骤S2内，如果产生了新的人类演示数据，则重复进行模仿人类演示数据的训练。

作为本发明的更进一步改进，在步骤S3内，经过从步骤S2训练出的订单分派策略执行订单分派任务，当产生人类干扰数据时，收集人类干扰订单分派的动作数据，按该动作数据改变执行订单分派的动作，从而训练出新的订单分派策略。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院，未经中国科学院深圳先进技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】