[发明专利]一种基于进化算法的通讯用户流失预测方法及系统在审
申请号: | 201910160635.0 | 申请日: | 2019-03-04 |
公开(公告)号: | CN109886755A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 周洪峰;雷奥林;邹秋艳 | 申请(专利权)人: | 深圳微品致远信息科技有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q50/30;G06K9/62 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 胡吉科 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户基本信息 数据集 机器学习 分类模型 通讯用户 用户信息数据 进化算法 数据检测 预测数据 输出 预测 数据存放 过采样 数据库 分类 更新 展示 | ||
1.一种基于进化算法的通讯用户流失预测方法,其特征在于,包括以下步骤:
步骤S1,将用户基本信息数据存放至数据库中,得到用户基本信息数据集S;
步骤S2,对所述用户基本信息数据集S进行数据检测,并经过随机过采样后得到用户信息数据集Stt;
步骤S3,将用户信息数据集Stt作为输入,将用户是否流失数据集At作为输出进行机器学习分类训练,得到训练好的机器学习分类模型;
步骤S4,将更新后的用户基本信息数据集Sx输入至所述步骤S3训练好的机器学习分类模型中,输出并展示用户次月是否流失的预测数据集Sy。
2.根据权利要求1所述的基于进化算法的通讯用户流失预测方法,其特征在于,所述步骤S2包括以下子步骤:
步骤S201,检测所述用户基本信息数据集S中的异常值和缺失值;
步骤S202,将异常值设置为缺失值;
步骤S203,对缺失值用零填充,得到数据清洗之后的数据源S_;
步骤S204,对数据源S_进行标准化处理得到数据集St;
步骤S205,通过随机过采样算法对数据集St进行更新,得到随机过采样后的户信息数据集Stt。
3.根据权利要求2所述的基于进化算法的通讯用户流失预测方法,其特征在于,所述步骤S204中,通过公式对数据源S_进行标准化处理得到数据集St,其中,xn代表数据源S—中数据集的第n条数据,n代表的是数据的样本数量,代表所有样本数据的均值,σ代表所有样本数据的标准差。
4.根据权利要求2所述的基于进化算法的通讯用户流失预测方法,其特征在于,所述步骤S205包括以下子步骤:
步骤S2051,将数据集A中用户次月是否流失值为1的用户数据以及与其对应的数据集St中的数据全部筛选出来,作为新的流失样本数T,该流失样本数T的样本数据集记为Ss,其中,数据集A为原始的用户次月是否流失的数据集;
步骤S2052,从全部的T个流失样本中找到样本xi的k个近邻,其中,i∈{1,2,...T},xi表示用户对应的第i行数据的特征向量,k∈{1,2,...i};
步骤S2053,从K个样本中通过随机选择其中的一个样本记为xi(nn),生成0-1的随机数ξ1,通过公式xi1=xi+ξ1·(xi(nn)-xi)从而合成一个新样本xi1;
步骤S2054,返回步骤S5023重复进行N次,从而可以合成N个新样本:xinew,new∈1,....N,N为预设的随机取样次数;
步骤S2055,通过公式Stt=St+Snew-Ss获得随机过采样后的户信息数据集Stt,其中,Snew为随机取样N次后新样本的数据集。
5.根据权利要求4所述的基于进化算法的通讯用户流失预测方法,其特征在于,通过公式At=A+Anew-As获得随机过采样后的用户是否流失数据集At,其中,Anew为随机取样N次后新样本的流失数据集,As为所述步骤S2051中流失样本数T所在的流失数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳微品致远信息科技有限公司,未经深圳微品致远信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910160635.0/1.html,转载请声明来源钻瓜专利网。