[发明专利]一种用于电信潜在换机用户发现的数据挖掘方法有效

专利信息
申请号: 201510186319.2 申请日: 2015-04-17
公开(公告)号: CN104794195B 公开(公告)日: 2018-04-06
发明(设计)人: 张雷;张奎亮;资帅;彭岳;蔡洋;王崇骏;李宁 申请(专利权)人: 南京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京瑞弘专利商标事务所(普通合伙)32249 代理人: 陈建和
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 电信 潜在 用户 发现 数据 挖掘 方法
【权利要求书】:

1.用于电信潜在换机用户发现的数据挖掘方法,其特征是包括如下步骤:

1)数据集构造阶段:

a收集用户的消费信息、用户历史换机信息、用户信息、终端信息;

b数据预处理,同时产生数据集;

c处理类别不均衡的数据集,形成最终的训练集和预测集;

d结束;

2)挖掘阶段:

a获取步骤1)-c中处理生成的数据集;

b实施数据挖掘算法发现潜在换机用户;

c保存结果;

d结束;

步骤1)-a中所说的收集数据为收集电信客户的消费信息相关数据;

步骤1)-b中所说的数据预处理具体过程如下:

1)选择用户状态表中状态正常的用户作为我们的预测用户,每个用户都有一个唯一的user_id;

2)以时间点为分割,规划出每个用户在该时间点之前的消费信息、换机信息,并通过user_id关联起来,以当前月为时间分割点的是预测数据集,以前的其他月为时间分割点的是训练数据集;

3)求出每个属性的信息增益率,选择信息增益率大的属性,摒弃信息增益率小的属性

E(S)=Σi=1n-pilog2pi]]>

其中S表示数据集,n表示数据集的类标中值的个数,pi表示第i个值出现的概率,E(S)表示数据集S的熵

E(S,A)=Σi=1nSiSE(S)]]>

属性A有n个取值C1,C2...Cn,将数据集S分为n个不相交的子集S1,S2...Sn,|S|为数据集的实例数,|Si|为数据集的第i个子集的实例数,E(S,A)表示数据集S由属性A分裂后的熵计算公式

InfoGain(S,A)=E(S)-E(S,A)

InfoGain(S,A)表示属性A的信息增益;

GainRatio(S,A)=InfoGain(S,A)/(-Σi=1nSiSlogSiS)]]>

GainRatio(S,A)表示属性A的信息增益率;

4)过滤掉消费属性值为空的数据;

5)过滤掉用机时间属性值小于15天的数据;

6)过滤掉历史用机个数属性值超于50个的数据;

7)过滤掉手机imei重复的数据;

8)为训练数据集的每一条记录添加类标;

9)结束;

步骤1)-c具体过程如下:

1)基于KNN算法对训练数据集中的边界数据进行过滤;

2)对训练数据集中大类数据进行聚类;

3)对聚类后的大类数据进行分层抽样;

4)结合小类数据组合成最终的训练集;

5)结束;

步骤2)-b中数据挖掘决策树算法的一次构建过程具体如下:

1)创建一个根节点N;

2)若训练数据集集为空,则标记节点N为空,并将其返回;

3)若训练数据集属于同一个类标C,则将节点N标记为C,并将其作为叶子节点返回;

4)若属性集合A为空,则将节点N标记为训练集中最多的那个类标M,并将其作为叶子节点返回;

5)对属性集合A中的每个属性进行离散型判断;

6)将连续型属性离散化处理;

7)选择属性集合A中信息增益最高的属性a;

8)根据属性a的取值a=di对结点N进行分支划分,确定每个分支的子数据集;

9)建立a=di的分支,并且节点N按该分支建立子结点Ni

10)以Ni为根节点,属性a以外的属性为属性集,递归构建决策树。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510186319.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top