[发明专利]基于tri-training的汽车行业潜在客户识别方法有效
申请号: | 201810034618.8 | 申请日: | 2018-01-15 |
公开(公告)号: | CN108256052B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 姚黎明;李晓非;张胤 | 申请(专利权)人: | 成都达拓智通科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06F18/2431;G06N3/0464;G06N3/084;G06Q30/0201 |
代理公司: | 成都华烨专利代理事务所(普通合伙) 51336 | 代理人: | 严刘英 |
地址: | 610000 四川省成都市武侯区二*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于tri‑training的汽车行业潜在客户识别方法,包括以下步骤:数据预处理,包括异常值处理、缺失值处理、分类属性处理、组合特征生成、特征选择、数据归一化;数据建模,用半监督学习中的Tri‑Training协同训练算法,并选择BP神经网络作为协同训练过程中的基学习器。本发明利用汽车品牌经销商的历史销售数据(带类别标签的客户数据)与采集的潜在客户数据(无标签的客户数据)建立半监督客户识别模型,从而为汽车行业的精准营销提供准确的营销对象,节省人力成本和资金成本。 | ||
搜索关键词: | 基于 tri training 汽车行业 潜在 客户 识别 方法 | ||
【主权项】:
1.一种基于tri‑training的汽车行业潜在客户识别方法,其特征在于:包括以下步骤:步骤(1):数据预处理,包括以下步骤:步骤(1.1):异常值处理:针对每一个属性,检查所有数据中是否有异常的属性值,如果有则删除;步骤(1.2):缺失值处理:针对分类属性,将缺失值作为一个新类型;针对连续属性,将包含缺失值的某一个属性看做因变量Y,将其他无缺失值的属性看做自变量X,再将Y中无缺失值的样本及其对应的X中样本作为训练集,选择随机森林模型在训练集上进行训练,使用训练好后的模型对Y中的缺失值进行预测,从而对原始数据中的缺失值进行填充;对其余包含缺失值的连续属性做上述处理直至全部缺失值处理完毕;步骤(1.3):分类属性处理:采用one‑hot编码对分类属性进行编码:若分类属性有m个属性值,则该属性将被编码为m维,每一维的取值均为0和1,若某一数据在该分类属性上取值为i,则编码后m维中的第i维取值为1,其余维取值为0;步骤(1.4):组合特征生成:采用GBDT生成组合特征:使用GBDT模型对上述经过处理的数据分类,模型首先产生一棵决策树并计算得到当前模型的损失函数的负梯度,再生成第二棵树用于拟合上述负梯度,第二棵树加入到当前模型中形成新模型,计算新模型的损失函数的负梯度,再生成第三棵树并加入到当前模型中更新模型,如此不断循环更新模型,每棵树的产生都是为了拟合上一轮更新后的模型的损失函数的负梯度;最后,GBDT模型将生成多棵决策树,每个样本在每棵树中都会被分到一个叶子节点中;将每棵树中的叶子节点从左至右排列,每个样本在每棵树中的叶子节点位置即可作为一个组合特征;对于第t棵树,若该树共有j个叶子节点,样本x经过该树后落入第d个(d≤j)叶子节点中,则由第t棵树构造的样本x的组合特征可表示为[f1,f2,…fd,…fj],其中,fd=1,表示该样本落入第d个叶子节点,其余值为0;若GBDT共生成了T棵决策树,则得到T个上述组合特征,将这T个组合特征加入到原始数据中,
步骤(1.5):特征选择:采用主成分分析即PCA对数据进行特征选择:将给定的一组变量X1,X2…Xk,通过线性变换,转换为一组不相关的变量Y1,Y2…Yk,在该变换中,保持变量的总方差即X1,X2…Xk的方差之和不变,同时,使Y1具有最大方差,称为第一主成分,Y2具有次最大方差,称为第二主成分,以此类推,选择q 其中x表示样本在某一属性下的原始值,x’表示归一化后的属性值,xmin、xmax分别表示该属性下所有样本中最小的属性值和最大的属性值;步骤(2):数据建模:采用半监督学习中的Tri‑Training协同训练算法,并选择BP神经网络作为协同训练过程中的基学习器,具体步骤如下:步骤(2.1):将全部样本数据分为有标签样本数据集L和无标签样本数据集U;步骤(2.2):对有标签数据集L做三次可放回随机采样,得到三个L的子集L1、L2、L3;步骤(2.3):以Tri‑Training协同训练算法及批量训练方式使用L1、L2和L3分别训练一个BP神经网络分类器,记为C1、C2、C3;步骤(2.4):C1、C2、C3进行在线学习:从数据集U中不放回地取一个样本,分别使用C1、C2、C3对其进行预测,若三个分类器的分类结果一致,则将该样本标上预测类别,放入集合l’中,使用该样本同时更新训练C1、C2、C3;若C1、C2预测类别一致,则将该样本放入集合l3中并用该样本更新训练C3;若C1、C3预测类别一致,则将该样本放入集合l2中并用该样本更新训练C2;若C2、C3预测类别一致,则将该样本放入集合l1中并用该样本更新训练C1,一次更新完毕;步骤(2.5):重复步骤(2.4),即每次都从无标签数据集U中不放回地随机取一个样本,使用上一轮更新后的三个分类器分别预测该样本,若三个BP神经网络分类器的预测类别一致,则将该样本放入集合l中,并用该样本同时更新三个分类器,若只有分类器Ci、Cj的预测类别一致,则将该样本放入集合lk中并用该样本更新分类器Ck,其中,i、j、k∈{1,2,3},且k≠i≠j;当数据集U中无剩余样本时,第一轮训练结束;计算三个分类器的分类误差率ei=集合li中样本数量/集合U中样本数量,其中i=1,2,3;令L=L∪l’,U=U‑l’,即将第一轮训练中所有三个分类器分类一致的样本加入到有标签数据集L中,同时从无标签数据集U中剔除,三个分类器分类不一致的样本仍旧保留在无标签数据集U中;然后清空集合li及l’,其中i=1,2,3;步骤(2.6):重复步骤(2.2)‑步骤(2.5),直至分类错误率ei达到给定阈值或不再下降,其中i=1,2,3,或l’中再无新样本进入,此时模型训练完毕;步骤(2.7):使用步骤(2.6)中得到的三个BP神经网络分类器对原始无标签数据集U中的全部样本进行预测,取三个分类器的输出概率均值作为每个无标签样本的标签值为1的决策概率,即每个潜在客户真正会购买汽车的概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都达拓智通科技有限公司,未经成都达拓智通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810034618.8/,转载请声明来源钻瓜专利网。
- 上一篇:网站产品生成方法及装置
- 下一篇:一种基于数据增强的主题建模方法