[发明专利]一种基于模拟环境的出行平台优惠券发放优化方法在审
申请号: | 202110886220.9 | 申请日: | 2021-08-03 |
公开(公告)号: | CN113327141A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 张超;胡南;刘泽琳;邢育超;刘昌鑫;徐亮 | 申请(专利权)人: | 南栖仙策(南京)科技有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q50/30;G06N20/00 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210038 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模拟 环境 出行 平台 优惠券 发放 优化 方法 | ||
本发明公开一种基于模拟环境的出行平台优惠券发放优化方法,基于机器学习构建出行平台优惠券发放的模拟环境,包括构建平台优惠券发放模型和用户行为模型;所述出行优惠券发放策略优化是根据所设定的优化目标,使得模拟环境内的平台优惠券发放模型和用户行为模型进行行为交互,优化后的平台优惠券发放策略;所述用户行为结果复盘将优化后的平台优惠券发放策略在现有的出行平台中进行投放,比对真实用户行为和模拟环境内的用户行为模型输出的差异性概率,对模拟环境中的用户行为模型进行修正,缩小模拟环境与真实环境误差,从而进一步在模拟环境内进行贴合实际场景的出行优惠券发放策略优化。
技术领域
本发明涉及一种基于模拟环境的出行平台优惠券发放优化方法,在基于机器学习技术构建的模拟环境,模拟平台发券和用户打车的交互过程,从而获得对出行平台优化的优惠券发放方法,属于智能出行技术领域。
背景技术
随着社会的发展、经济水平的提高以及人们生活水准的提高,公共交通设施已经不能满足部分用户的需求。众多出行平台应运而生,着力打造更快速、便捷、舒适的出行方式。但由于众多出行平台的参与,且出行领域用户粘性较小,所以各种出行优惠券的发放成为各出行平台的获客手段。
而出行优惠券发放过程高度依赖运营人员的经验。这些经验通常由运营人员之间交流以及实际优惠券发放中的试错获取,难以形成数字化的经验,新入行从业人员的学习成本较高,且在众多城市中,最优发券策略往往不同,运营人员难以快速调整策略。因此,现有的出行优惠券发放的整个过程需要大量的人力和高昂的费用,亟需一种数字化、自动化、智能化的优惠券发放方法。
机器学习中适用于序列决策过程的强化学习方法,其学习过程要求智能体与环境不断交互试错,以帮助智能体在环境中逐渐学得最优控制策略(即最优决策策略),从而自动完成决策任务。然而,强化学习是智能体与环境进行大量交互试错的过程,在现实环境中往往难以实行。例如,在实际的出行平台优惠券发放过程中直接用强化学习,则需要使用大量不同的优惠券发放方案在实际业务中进行试错,然后从对应用户的行为决策数据中,学习得到最优的平台优惠券发放策略。显然,这种方法会带来巨大的经济损失和时间成本,是出行平台无法接受的。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于模拟环境的出行平台优惠券发放优化方法。
技术方案:一种基于模拟环境的出行平台优惠券发放优化方法,主要包括出行平台优惠券发放的模拟环境构建、出行优惠券发放策略优化和用户行为结果复盘三个部分的实现,其中,出行平台优惠券发放的模拟环境构建包括构建平台优惠券发放模型和用户行为模型;出行优惠券发放策略优化根据所设定的优化目标,使得模拟环境内的平台优惠券发放模型和用户行为模型进行行为交互,优化后的平台优惠券发放策略;用户行为结果复盘将优化后的平台优惠券发放策略在现有的出行平台中进行投放,比对真实用户行为和模拟环境内的用户行为模型输出的差异性概率,对模拟环境中的用户行为模型进行修正。
所述出行平台优惠券发放的模拟环境构建过程中,对实际发生的历史平台发券内容和用户打车行为数据进行学习,构造平台优惠券发放模型和用户行为模型;学习过程中,首先基于出行平台视角,定义并抽象出状态数据
所述出行优惠券发放策略优化过程中,设定优化目标,给定随机初始状态数据
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南栖仙策(南京)科技有限公司,未经南栖仙策(南京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110886220.9/2.html,转载请声明来源钻瓜专利网。