[发明专利]一种用于电信潜在换机用户发现的数据挖掘方法有效
申请号: | 201510186319.2 | 申请日: | 2015-04-17 |
公开(公告)号: | CN104794195B | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 张雷;张奎亮;资帅;彭岳;蔡洋;王崇骏;李宁 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙)32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 电信 潜在 用户 发现 数据 挖掘 方法 | ||
技术领域
本发明涉及数据集构建方法、类别不均衡问题解决方法,以及在数据集上采用决策树算法挖掘出电信潜在换机用户的技术。
背景技术
利用数据挖掘技术可以智能分析电信用户数据,发现潜在的用户换机规律。常用的电信潜在换机用户数据挖掘中有一类应用是决策树分类算法,其基于用户的消费数据、换机信息等对用户未来的换机行为进行预测。本发明也使用了KNN算法和聚类算法对类别不均衡数据进行了欠采样处理,构造数据平衡、分布均匀的数据集。同时在数据进行预处理时使用信息增益率进行属性选择,选择合适的属性。也尝试用数据处理技术去除干扰性噪音数据。
电信行业的运营商几乎每分每秒都在产生大量的业务数据,这些实时海量的数据对于运营商就像一座含有无数矿藏的矿山,本身并不能产生价值,但如果开采得当,就可以得到想象不到的价值,而数据挖掘无疑就是最好的开采工具。在激烈的运营商竞争中,运用数据挖掘去分析海量的业务数据,对理解商业行为、了解客户需求、把握产品和服务的走向等等无疑有着不可估量的价值。
基于数据挖掘进行潜在换机用户定位这一思路打破了传统经验总结的换机模型的惯例,采用数据挖掘中的决策树算法可以深入挖掘用户换机的信息,发现用户更换手机的特点以及用户换机的规律,克服了传统地人为经验总结不能更具针对性同时高精确性的不足。
近期以来,随着大数据时代的来临,将数据挖掘技术用于电信行业进行商业价值提升逐渐成为一种趋势。
发明内容
本发明的目的,构造预测用户换机行为所需的训练数据集和预测数据集,并在训练数据集上采用KNN和聚类算法,以处理类别不均衡的数据集。最后在数据集上实施决策树算法,以快速有效地发现潜在换机用户。
为解决上述问题,本发明的技术方案是,用于电信潜在换机用户发现的数据挖掘方法,包括如下步骤:
1)数据集构造阶段:
a收集用户消费信息、用户历史换机信息、用户信息、终端信息;
b数据预处理,同时产生数据集;
c处理类别不均衡的数据集,形成最终的训练集和预测集;
d结束。
2)挖掘阶段:
a获取步骤1)-c中处理生成的数据集;
b实施数据挖掘算法发现潜在换机用户;
c保存结果;
d结束。
步骤1)-a中所说的收集数据为收集电信客户的消费信息等相关数据。
步骤1)-b中所说的数据预处理具体过程如下:
1)选择用户状态表中状态正常的用户作为我们的预测用户,每个用户都有一个唯一的user_id;
2)以时间点为分割,规划出每个用户在该时间点之前的消费信息、换机信息等,并通过user_id关联起来,以当前月为时间分割点的是预测数据集,以前的其他月为时间分割点的是训练数据集;
3)求出每个属性的信息增益率,选择信息增益率大的属性,摒弃信息增益率小的属性
其中S表示数据集,n表示数据集的类标中值的个数,pi表示第i个值出现的概率,E(S)表示数据集S的熵
属性A有n个取值C1,C2...Cn,将数据集S分为n个不相交的子集S1,S2...Sn,|S|为数据集的实例数,|Si|为数据集的第i个子集的实例数,E(S,A)表示数据集S由属性A分裂后的熵计算公式
InfoGain(S,A)=E(S)-E(S,A)
InfoGain(S,A)表示属性A的信息增益
GainRatio(S,A)表示属性A的信息增益率
4)过滤掉消费属性值为空的数据;
5)过滤掉用机时间属性值小于15天的数据;
6)过滤掉历史用机个数属性值超于50个的数据;
7)过滤掉手机imei重复的数据;
8)为训练数据集的每一条记录添加类标;
9)结束。
步骤1)-c具体过程如下:
1)基于KNN算法对训练数据集中的边界数据进行过滤;
2)对训练数据集中大类数据进行聚类;
3)对聚类后的大类数据进行分层抽样;
4)结合小类数据组合成最终的训练集;
5)结束。
步骤2)-b中数据挖掘决策树算法的一次构建过程具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510186319.2/2.html,转载请声明来源钻瓜专利网。