[发明专利]一种音乐网站客户流失预测方法在审
申请号: | 201811444669.4 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109784966A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 吴晟;刘叶;韩林峄 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62;G06F16/2458 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种音乐网站客户流失预测方法,属于分类预测领域。本发明首先通过对音乐网站中的客户信息库中的数据进行分析和预处理,确定客户特征和目标变量得到集成表格;然后把历史数据分为训练样本集和测试样本集,根据训练样本集来训练模型,根据测试样本集来对训练模型进行测试、评价和优化;最后,将增量数据利用训练模型来预测客户是否流失。本发明与现有方案相比,主要解决了现有方案在对客户流失预测时存在的灵活性不足、准确度低等现象,提高了利用随机森林算法对客户流失预测的灵活性和准确度。 | ||
搜索关键词: | 客户流失 预测 训练模型 音乐网站 测试样本集 训练样本集 准确度 预处理 客户信息库 客户特征 历史数据 目标变量 随机森林 增量数据 算法 测试 分类 客户 优化 分析 | ||
【主权项】:
1.一种音乐网站客户流失预测方法,其特征在于:Step1:抽取数据;以音乐网站当前月为标准抽取前三个月的用户信息作为历史数据A,抽取本月用户数据及后续新增的用户信息作为增量数据B;Step2:对历史数据A及增量数据B进行探索性分析,对数据进行缺失值和异常值分析;具体步骤如Step2.1~Step2.2所示;Step2.1:抽取的数据中若存在性别、年龄为空值,以及年龄超过100岁的数据,将在此情况下的数据标记为D;Step2.2:查找出标记数据D特征观测值中空值的个数,以及年龄的最大值、最小值;Step3:对历史数据A及增量数据B进行数据预处理,得到新的历史数据A′及增量数据B′,具体步骤如Step3.1~Step3.3所示;Step3.1:数据清洗;丢弃性别为空的记录;年龄大于90岁小于10岁的记录替换为空值,丢弃年龄为空的记录;Step3.2:特征规约;原始数据中特征太多,删除不相关、弱相关以及冗余特征,选择与模型相关的特征;Step3.3:数据变换;将抽取的数据转换为“适当”的格式,以适应挖掘任务及算法的需要;Step4:确定目标变量;在客户流失场景中,用“0”和“1”来标识某个用户是否流失,其中“1”表示用户流失,“0”表示用户未流失;Step5:根据数据指标特征和目标变量,历史数据A′得到集成表格A′Tab,增量数据B′得到无目标变量的集成表格B′Tab,其中表格中每一行对应一个样本,每一列对应一个特征;Step6:按照7:3的分割比例将集成表格A′Tab分割成训练样本集M和测试样本集N,模型的构建主要分为根据训练样本集进行模型训练和根据测试样本集对训练模型进行测试并评价模型效果;Step7:建立客户流失预测模型;具体步骤如Step7.1~Step7.5;Step7.1:对训练样本集M采用Bootstraping方法随机有放回采样选出m个样本,共进行n次采样,生成n个训练集;Step7.2:对于n个训练集,分别训练n个决策树模型;Step.7.3:对于单个决策树模型,每个样本有T个特征,随机选取t个特征,采取校验函数信息增益比根据信息增益比越大不确定性越小原则选择最佳分类点;Step7.4:每棵树都按上述分裂方式进行分裂,直到该节点的所有训练样例都属于同一类;Step7.5:将生成的多棵决策树组成随机森林,按多棵树分类器投票决定最终分类结果;Step8:对测试样本集N运用训练模型进行预测,用准确率和召回率对模型进行评价;Step9:将预处理后的增量数据B′生成的集成表格B′Tab采用训练模型来对用户是否流失进行预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811444669.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种存储关键数据的区块链方法
- 下一篇:一种信息的推送方法和装置