[发明专利]一种用于电信潜在换机用户发现的数据挖掘方法有效

申请号：	201510186319.2	申请日：	2015-04-17
公开（公告）号：	CN104794195B	公开（公告）日：	2018-04-06
发明（设计）人：	张雷;张奎亮;资帅;彭岳;蔡洋;王崇骏;李宁	申请（专利权）人：	南京大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京瑞弘专利商标事务所(普通合伙)32249	代理人：	陈建和
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于电信潜在用户发现数据挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.用于电信潜在换机用户发现的数据挖掘方法，其特征是包括如下步骤：

1)数据集构造阶段：

a收集用户的消费信息、用户历史换机信息、用户信息、终端信息；

b数据预处理，同时产生数据集；

c处理类别不均衡的数据集，形成最终的训练集和预测集；

d结束；

2)挖掘阶段：

a获取步骤1)-c中处理生成的数据集；

b实施数据挖掘算法发现潜在换机用户；

c保存结果；

d结束；

步骤1)-a中所说的收集数据为收集电信客户的消费信息相关数据；

步骤1)-b中所说的数据预处理具体过程如下：

1)选择用户状态表中状态正常的用户作为我们的预测用户，每个用户都有一个唯一的user_id；

2)以时间点为分割，规划出每个用户在该时间点之前的消费信息、换机信息，并通过user_id关联起来，以当前月为时间分割点的是预测数据集，以前的其他月为时间分割点的是训练数据集；

3)求出每个属性的信息增益率，选择信息增益率大的属性，摒弃信息增益率小的属性

E(S)=Σi=1n-pilog2pi]]>

其中S表示数据集，n表示数据集的类标中值的个数，p_i表示第i个值出现的概率，E(S)表示数据集S的熵

E(S,A)=Σi=1nSiSE(S)]]>

属性A有n个取值C₁,C₂...C_n，将数据集S分为n个不相交的子集S₁,S₂...S_n，|S|为数据集的实例数，|S_i|为数据集的第i个子集的实例数，E(S,A)表示数据集S由属性A分裂后的熵计算公式

InfoGain(S,A)＝E(S)-E(S,A)

InfoGain(S，A)表示属性A的信息增益；

GainRatio(S,A)=InfoGain(S,A)/(-Σi=1nSiSlogSiS)]]>

GainRatio(S,A)表示属性A的信息增益率；

4)过滤掉消费属性值为空的数据；

5)过滤掉用机时间属性值小于15天的数据；

6)过滤掉历史用机个数属性值超于50个的数据；

7)过滤掉手机imei重复的数据；

8)为训练数据集的每一条记录添加类标；

9)结束；

步骤1)-c具体过程如下：

1)基于KNN算法对训练数据集中的边界数据进行过滤；

2)对训练数据集中大类数据进行聚类；

3)对聚类后的大类数据进行分层抽样；

4)结合小类数据组合成最终的训练集；

5)结束；

步骤2)-b中数据挖掘决策树算法的一次构建过程具体如下：

1)创建一个根节点N；

2)若训练数据集集为空，则标记节点N为空，并将其返回；

3)若训练数据集属于同一个类标C，则将节点N标记为C，并将其作为叶子节点返回；

4)若属性集合A为空，则将节点N标记为训练集中最多的那个类标M，并将其作为叶子节点返回；

5)对属性集合A中的每个属性进行离散型判断；

6)将连续型属性离散化处理；

7)选择属性集合A中信息增益最高的属性a；

8)根据属性a的取值a＝d_i对结点N进行分支划分，确定每个分支的子数据集；

9)建立a＝d_i的分支，并且节点N按该分支建立子结点N_i；

10)以N_i为根节点，属性a以外的属性为属性集，递归构建决策树。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510186319.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种信息匹配方法及装置
下一篇：基于指纹多重哈希布隆过滤器的网络取证内容溯源方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于电信潜在换机用户发现的数据挖掘方法有效

专利文献下载