[发明专利]一种基于旅客细分的官网访客流失分析方法在审
申请号: | 201811631821.X | 申请日: | 2018-12-29 |
公开(公告)号: | CN109711896A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 陈思恩;杨紫胜;廖雅哲;吴炎泉 | 申请(专利权)人: | 科技谷(厦门)信息技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q50/30;G06K9/62;G06F16/215;G06F16/2458 |
代理公司: | 厦门致群专利代理事务所(普通合伙) 35224 | 代理人: | 刘兆庆;邓贵琴 |
地址: | 361006 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 访客 访问日志数据 价值分析 购票 分析 访客行为数据库 概率预测模型 概率预测 聚类分析 数据清洗 数据挖掘 算法计算 营销部门 精准化 旅客 分群 聚类 群体 分类 营销 | ||
本发明公开了一种基于旅客细分的官网访客流失分析方法,包括以下步骤:获得原始官网访问日志数据;对所述原始官网访问日志数据进行数据清洗;建立访客价值分析模型,利用PCA算法计算出访客价值得分;利用K‑means聚类对访客行为数据库进行聚类分析,实现访客群体的分类;针对不同类别的访客群体分别训练logit模型,获得访客流失分析和购票概率预测模型。本发明基于官网访问日志数据进行数据挖掘,对访客进行价值分析、分群、流失分析及购票概率预测,为营销部门实现精准化营销提供有力依据。
技术领域
本发明涉及大数据处理技术领域,特别涉及一种基于旅客细分的官网访客流失分析方法。
背景技术
目前乘坐民航航班是人们的重要出行方式,随着航空电子商务的不断发展,互联网+的大势所趋,这也需要更完善的营销平台支撑以及日益完善电子营销渠道和功能建设。
目前,各航空公司都已实现了官网购票,但并未对访客行为做深入分析研究,造成对诸如访客价值、流失率、购票率等重要信息的缺失,官网访客行为数据也难以直接产生业务指导作用。
发明内容
为解决上述问题,本发明提供了一种基于旅客细分的官网访客流失分析方法。
本发明采用以下技术方案:
一种基于旅客细分的官网访客流失分析方法,包括以下步骤:
S1、获得原始官网访问日志数据;
S2、对所述原始官网访问日志数据进行数据清洗,获得访客行为数据库,所述访客行为数据库包含一组访客行为变量;
S3、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,建立访客价值分析模型,利用PCA算法计算出访客价值得分,所述变量R为最近一次购票时间到观察结束时间的天数,所述变量F为观察时间段内成功购票的次数,所述变量M为观察时间段内总购票金额,所述关键模块访问变量包括收银支付页面访问次数和预定行程页面访问次数;
S4、利用K-means聚类对访客行为数据库进行聚类分析,实现访客群体的分类;
S5、针对不同类别的访客群体分别训练logit模型,获得访客流失分析和购票概率预测模型。
优选地,在步骤S2中所述数据清洗通过以下方法实现:
利用Hive对原始官网访问日志数据进行第一阶段数据清洗,包括新特征构建、缺失值处理;
利用R语言进行第一阶段数据清洗,包括异常值处理、离群值处理、数据归一化。
优选地,所述步骤S3通过以下分步骤实现:
S31、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,并作为输入变量,将访客价值得分作为输出变量;
S32、利用PCA算法进行降维处理,压缩得到一维得分列,生成各变量对应的得分权重值,进而获得访客价值得分。
优选地,所述步骤S4通过以下分步骤实现:
S41、基于所述访客行为数据库提取与访客群体分类相关的访客行为变量,并作为输入变量;
S42、利用碎石图来寻找拐点确定降维数量,根据降维数量对访客行为数据库中的训练数据进行PCA降维处理;
S43、利用Within-ClusterSumofSquaresn曲线图寻找拐点确定聚类数k,利用K-means聚类算法进行聚类分析,并输出聚类结果;
S44、通过所述聚类结果进行特征分析,进行访客群体分类,并对各个访客群体进行定义。
优选地,所述步骤S5通过以下分步骤实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科技谷(厦门)信息技术有限公司,未经科技谷(厦门)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811631821.X/2.html,转载请声明来源钻瓜专利网。