[发明专利]状态预测方法和装置有效
申请号: | 201711349699.2 | 申请日: | 2017-12-15 |
公开(公告)号: | CN107832581B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 胡瑞华 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06N20/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 状态 预测 方法 装置 | ||
1.一种状态预测方法,其特征在于,包括以下步骤:
对目标用户进行采样;
从采样得到的目标用户中,识别出在采样时刻已流失用户和未流失用户;其中,已流失用户为采样时刻之前的目标时长内未执行目标行为的用户,未流失用户为采样时刻之前的目标时长内执行过所述目标行为的用户;
根据在采样时刻已流失用户的账户信息,生成负样本,并根据在采样时刻未流失用户的账户信息,生成正样本和验证样本;
根据所述负样本和所述正样本,对用于预测在所述采样时刻之后用户流失状态的决策树模型进行训练;
将所述验证样本输入经过训练的决策树模型,以得到预测流失状态;
若根据所述验证样本的预测流失状态与实际流失状态计算得到的准召率不小于阈值,确定所述决策树模型训练完成;其中,实际流失状态,是根据所述采样时刻之后的所述目标时长内用户是否执行过所述目标行为确定的,以及,通过调整所述目标时长来对所述决策树模型进行重复训练,其中,若根据所述验证样本的预测流失状态与实际流失状态计算得到的准召率小于阈值,调整所述目标时长的取值;
根据调整后的目标时长,重新识别采样时刻的已流失用户和未流失用户;
根据重新识别的已流失用户的账户信息,重新生成负样本,并根据重新识别的未流失用户的账户信息,重新生成正样本和验证样本;
根据重新生成的负样本和重新生成的正样本,对所述决策树模型进行重新训练;
根据训练完成的所述决策树模型,进行用户流失状态的预测。
2.根据权利要求1所述的状态预测方法,其特征在于,所述将所述验证样本输入经过训练的决策树模型,以得到预测流失状态之后,还包括:
若所述验证样本的预测流失状态与实际流失状态相同,调整所述决策树模型的模型参数;其中,若所述决策树模型为基于梯度上升的xgboost的决策树,所述模型参数包括最小优化损失函数、正负样本均衡性参数、迭代权重、迭代次数、树的最大深度和用于判定有效数据的度量参数中的至少一个;
根据所述负样本和所述正样本,对所述决策树模型进行重新训练。
3.根据权利要求1-2任一项所述的状态预测方法,其特征在于,所述目标用户为活跃用户;所述对目标用户进行采样之前,还包括:
从全部用户中,识别出活跃用户;其中,所述活跃用户为执行过目标行为的用户;所述目标行为包括购买行为、浏览行为和续费行为中的至少一个。
4.根据权利要求1-2任一项所述的状态预测方法,其特征在于,所述根据所述负样本和所述正样本,对用于预测在所述采样时刻之后用户流失状态的决策树模型进行训练,包括:
对所述负样本和所述正样本进行特征提取;
将所述负样本的特征和所述正样本的特征作为所述决策树模型的输入,并将流失状态或未流失状态作为所述决策树的分类输出结果,采用xgboost算法,对所述决策树模型执行训练过程。
5.根据权利要求4所述的状态预测方法,其特征在于,所述对所述负样本和所述正样本进行特征提取,包括:
对所述负样本和所述正样本均进行特征提取,得到属性特征和行为特征;其中,所述属性特征包括:账户有效状态、账户开户地和账户运营主体中的至少一个;所述行为特征包括:总消费额、总点击量、账户余额、最近消费距离所述采样时刻的天数。
6.根据权利要求1-2任一项所述的状态预测方法,其特征在于,所述根据训练完成的所述决策树模型,进行用户流失状态的预测之后,还包括:
若目标用户预测流失状态为将流失,生成用于指示对所述目标用户进行维护的任务;
任务下发后,获取任务执行过程中确定的所述目标用户实际流失状态;
根据所述目标用户实际流失状态和所述目标用户的预测流失状态,确定所述决策树模型的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711349699.2/1.html,转载请声明来源钻瓜专利网。