[发明专利]一种面向移动通信用户流失不平衡数据预测方法有效
申请号: | 201811353587.9 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109460872B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 袁正午;赵璞;段炼 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/30;G06F16/2458 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 移动 通信 用户 流失 不平衡 数据 预测 方法 | ||
本发明提供了一种面向移动通信用户流失不平衡数据预测方法。该方法主要基于改进的深度森林模型算法框架对通信用户流失不平衡数据进行分类。首先在深度森林模型的多粒度窗口滑动过程构造新的参数,控制不同类别用户数据滑动。将滑动后的数据带入级联森林部分训练,森林中的每颗决策树根据训练结果对不同类别的数据赋予不同的权重。最终算法模型的投票结果采用加权后投票,从而实现对不平衡用户数据的处理。本发明提供的预测方法将深度森林中多粒度滑动模块改进为对不同的分类进行滑动,同时森林中每颗决策树对不同类别用户的权重进行更新,使得整个模型对移动通信用户流失不平衡数据具有更高的识别精度。
技术领域
本发明涉及数据处理相关技术,具体涉及一种面向移动通信用户流失不平衡数据预测方法。
背景技术
随着信息技术的快速发展,移动通信用户的流失已经成为电信运营商急需解决的问题。现在的运营商主要通过统计用户的个人信息数据,并由专业人员通过对过去的数据、资料的总结,结合自身经验进行分析和判断,作出用户流失的预警。目前的移动用户数据呈现出明显分布的不平衡特征,数据中的流失用户数量远小于未流失用户数量。
预测移动通信用户流失,传统的方式主要是通过人工经验进行判别,容易受个人经验影响,精准度和预警效率都比较低。成熟的数据分类算法可以取得较好的分类精度,但是这些算法大多建立在平衡的数据基础上。在移动通信用户的流失数据中,数据具有分布不平衡的特点,应用的传统的分类算法,分类器容易倾向于多数类(即未流失用户),使得我们主要关注的流失用户没有得到正确的识别,所以提升对移动通信用户流失不平衡数据的识别精度已经成为一项亟待解决的问题。针对移动通信用户流失数据的特性,利用一种改进的深度森林模型对流失用户数据进行预测。
深度森林(gcForest)主要由多粒度滑动窗口扫描(Multi-grained Scanning)和级联森林(CascadeForest Structure)组成。首先数据集通过多粒度滑动窗口进行特征的扩充,获得增强的特征向量。并将增强的特征向量作为级联森林的训练集,每一层级联森林上学习得到的为类别的概率分布向量,算法将级联森林在该层输出的向量与滑动窗口获得的特征向量合并,传入下一层学习,在多层次的学习中,算法对整个模型进行性能判定,如果性能没有明显增长,则算法停止,并输出最终的分类结果。该算法较过去的集成学习算法在分类精度上得到进一步提升。
发明内容
经过上述分析本发明旨在解决现有的技术问题。提供一种改进的深度森林模型框架,能够更好地提升该模型在不平衡数据集中的表现,同时提高其对移动通信流失数据中的流失用户的识别率。
一种面向移动通信用户流失不平衡数据预测方法具体步骤如下:
步骤一:构建数据预处理模块并进行数据预处理;
步骤一(1)定义预处理模块1获取用户数据,包括用户基本信息、消费信息、位置信息、终端信息、接触信息等多个维度的信息。
步骤一(2)模块处理其中离群数据、缺失数据。
步骤一(3)模块对其中的连续化数据进行离散化处理。
步骤一(4)定义预处理模块2,用于计算上述获取属性中的信息增益、相关性,排序筛选出强属性。
步骤二:深度森林模型滑动窗口过程改进;
步骤二(1)增加一个可选参数,可以分别控制多数类样本和少数类样本的滑动
步骤二(2)计算不平衡度:
式中Maj表示未流失用户的样本数,Min代表流失用户的样本数。
步骤二(3)根据不平衡度的反比采样进行多粒度滑动,未流失用户中随机滑动部分用户数据,流失用户样本全部滑动。
步骤三:对级联森林部分中的随机森林改进:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811353587.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于典型日识别的机场旅客量预测方法
- 下一篇:空调系统运行优化方法和装置
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理