[发明专利]状态分析模型构建方法、分析方法及装置在审
申请号: | 201910141206.9 | 申请日: | 2019-02-25 |
公开(公告)号: | CN111612491A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 杨凯迪;谢梁 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 邓超 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 状态 分析 模型 构建 方法 装置 | ||
1.一种状态分析模型构建方法,其特征在于,包括:
获取多个训练用户在预设时间段内的训练特征数据;
对所述训练特征数据进行分类操作,获得分类结果;
对所述分类结果进行证据权重WoE变换,获得每一训练特征数据对应的每一分类的辨识度;
利用所述分类结果构建目标特征的回归模型,根据所述回归模型获得每一训练特征数据对应的特征系数和截距值;
根据所述辨识度、所述每一训练特征数据对应的特征系数和所述截距值构建所述状态分析模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述训练特征数据进行分类操作,获得分类结果,包括:
对连续型的训练特征数据采用随机森林映射法进行分类操作,对离散型的训练特征数据采用Greenacre's分类合并法进行分类操作,获得分类结果。
3.根据权利要求2所述的方法,其特征在于,所述对连续型的训练特征数据采用随机森林映射法进行分类操作,包括:
对每一连续型的训练特征数据进行排序,并根据预设深度对排序后的训练特征数据进行预分类,获得多个聚合分裂点;
计算每一所述聚合分裂点对应的信息增益,将最大的信息增益对应的聚合分裂点作为目标聚合分裂点。
4.根据权利要求3所述的方法,其特征在于,所述计算每一所述聚合分裂点对应的信息增益,包括:
利用g(D,A)=H(D)-H(D|A)计算获得每一聚合分裂点对应的信息增益;
其中,H(D)为所述排序后的训练特征数据的熵,H(A)为通过聚合分裂点A对所述排序后的训练特征数据进行划分后的熵。
5.根据权利要求2所述的方法,其特征在于,对离散型的训练特征数据采用Greenacre's分类合并法进行分类操作,包括:
构建每一离散型的训练特征数据对应的列联表,所述列联表包括多个类别;
利用分层聚类算法将所述列联表中的多个类别进行多次聚类合并,得到一个类别,计算每次聚类结果对应的卡方值;
根据各个聚类结果的卡方值和对应的预设自由度,获得对应的对数值,将最小的对数值对应的聚类结果作为目标聚类结果。
6.根据权利要求1所述的方法,其特征在于,所述对所述分类结果进行证据权重WoE变换,获得每一训练特征数据对应的每一分类的辨识度,包括:
当所述训练特征数据的类型为二分类时,根据计算每一训练特征数据对应的每一分类的辨识度;
当所述训练特征数据的类型为连续型或多分类时,根据计算每一训练特征数据对应的每一分类的辨识度;
其中,Bi为第i组的第一类型用户的数量,Gi为第i组的第二类型用户的数量,BT为第一类型用户的数量,GT为第二类型用户的总数量,Recordsi为第i组所有用户的数量。
7.根据权利要求1所述的方法,其特征在于,所述状态分析模型为:
其中,为预设的基础分值,pdo为预设的好坏比,odds为预设的初始值;
WoEi为第i个训练特征数据对应的每一分类的辨识度,βi为第i个训练特征数据对应所述特征系数,n为训练特征个数,α为所述截距值。
8.根据权利要求1所述的方法,其特征在于,在获取多个训练用户在预设时间段内的训练特征数据之后,所述方法,还包括:
采用随机森林预测法对所述训练特征数据中的缺失值进行补齐操作,以及对所述训练特征数据中的异常值进行删除操作。
9.一种用户状态分析方法,其特征在于,所述方法包括:
获取数据平台中待测用户的至少一个特征数据;
利用如权利要求1-8任一项构建的状态分析模型对所述至少一个特征数据进行分析,获得所述待测用户对应的状态分值;
根据所述状态分值确定所述待测用户的状态信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910141206.9/1.html,转载请声明来源钻瓜专利网。