[发明专利]一种基于旅客细分的官网访客流失分析方法在审
申请号: | 201811631821.X | 申请日: | 2018-12-29 |
公开(公告)号: | CN109711896A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 陈思恩;杨紫胜;廖雅哲;吴炎泉 | 申请(专利权)人: | 科技谷(厦门)信息技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q50/30;G06K9/62;G06F16/215;G06F16/2458 |
代理公司: | 厦门致群专利代理事务所(普通合伙) 35224 | 代理人: | 刘兆庆;邓贵琴 |
地址: | 361006 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 访客 访问日志数据 价值分析 购票 分析 访客行为数据库 概率预测模型 概率预测 聚类分析 数据清洗 数据挖掘 算法计算 营销部门 精准化 旅客 分群 聚类 群体 分类 营销 | ||
1.一种基于旅客细分的官网访客流失分析方法,其特征在于,包括以下步骤:
S1、获得原始官网访问日志数据;
S2、对所述原始官网访问日志数据进行数据清洗,获得访客行为数据库,所述访客行为数据库包含一组访客行为变量;
S3、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,建立访客价值分析模型,利用PCA算法计算出访客价值得分,所述变量R为最近一次购票时间到观察结束时间的天数,所述变量F为观察时间段内成功购票的次数,所述变量M为观察时间段内总购票金额,所述关键模块访问变量包括收银支付页面访问次数和预定行程页面访问次数;
S4、利用K-means聚类对访客行为数据库进行聚类分析,实现访客群体的分类;
S5、针对不同类别的访客群体分别训练logit模型,获得访客流失分析和购票概率预测模型。
2.如权利要求1所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,在步骤S2中所述数据清洗通过以下方法实现:
利用Hive对原始官网访问日志数据进行第一阶段数据清洗,包括新特征构建、缺失值处理;
利用R语言进行第一阶段数据清洗,包括异常值处理、离群值处理、数据归一化。
3.如权利要求2所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,所述步骤S3通过以下分步骤实现:
S31、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,并作为输入变量,将访客价值得分作为输出变量;
S32、利用PCA算法进行降维处理,压缩得到一维得分列,生成各变量对应的得分权重值,进而获得访客价值得分。
4.如权利要求2所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,所述步骤S4通过以下分步骤实现:
S41、基于所述访客行为数据库提取与访客群体分类相关的访客行为变量,并作为输入变量;
S42、利用碎石图来寻找拐点确定降维数量,根据降维数量对访客行为数据库中的训练数据进行PCA降维处理;
S43、利用Within-Cluster Sum of Squaresn曲线图寻找拐点确定聚类数k,利用K-means聚类算法进行聚类分析,并输出聚类结果;
S44、通过所述聚类结果进行特征分析,进行访客群体分类,并对各个访客群体进行定义。
5.如权利要求4所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,所述步骤S5通过以下分步骤实现:
S51、基于所述访客行为数据库划分出训练数据集和测试数据集;
S52、针对不同类别的访客群体分别训练logit模型,得到各个访客群体对应的训练模型参数,进而获得所述访客流失分析和购票概率预测模型;
S53、将每个访客群体对应的测试数据集应用到对应的训练模型中,对训练模型的效果进行评估;
S54、根据所述访客流失分析和购票概率预测模型,计算出访客流失概率和购票概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科技谷(厦门)信息技术有限公司,未经科技谷(厦门)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811631821.X/1.html,转载请声明来源钻瓜专利网。