[发明专利]累积型变量特征自动生成方法及其系统在审
申请号: | 201811430396.8 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109635954A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 陈露佳;肖凯;孟昌华;王维强;赵闻飙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 变量特征 向量 效用矩阵 自动生成 枚举 概率 计算机技术领域 快速寻找 评估结果 一次迭代 显著性 评估 迭代 申请 | ||
1.一种累积型变量特征自动生成方法,其特征在于,对以下步骤至少迭代一次,将最后一次迭代后所得的累积型变量作为自动生成的累积型变量特征:
生成多个累积型变量,其中至少部分累积型变量根据效用矩阵中的概率值生成,所述效用矩阵包括至少一个向量,每个向量对应累积型变量的一个参数,向量的长度为对应参数的枚举值个数,向量中的每一个值是参数枚举值生成的概率值;
对生成的所述累积型变量的性能进行评估;以及,
根据所述评估的评估结果调整所述效用矩阵中的概率值。
2.如权利要求1所述的方法,其特征在于,所述效用矩阵所包括的向量为:主体,客体,函数,时间和条件。
3.如权利要求1所述的方法,其特征在于,所述评估指标包括单变量分析的指标,和/或,多变量分析的指标。
4.如权利要求3所述的方法,其特征在于,所述单变量分析的指标包括以下之一或其任意组合:IV,KS,单bin最大准确率,模型重要性。
5.如权利要求3所述的方法,其特征在于,所述多变量分析的指标包括以下之一或其任意组合:stepwise,vif,correlation。
6.如权利要求1所述的方法,其特征在于,所述生成多个累积型变量的步骤中,至少一个累积型变量以随机方式生成。
7.如权利要求1所述的方法,其特征在于,所述生成多个累积型变量的步骤中,至少一个累积型变量进行过主体之间的交叉或者条件之间的交叉。
8.如权利要求1所述的方法,其特征在于,在第一次迭代之前,所述效用矩阵中以0-1之间的随机数初始化,或使用其他场景下训练好的效用矩阵。
9.如权利要求1-8中任意一项所述的方法,其特征在于,所述根据所述评估的评估结果调整所述效用矩阵中的概率值,进一步包括:
将每一个所述累积型变量的所述评估结果分配到该累积型变量的所有参数维度中;
计算维度层面的值;
根据所述维度层面的值,更新所述效用矩阵;
对所述效用矩阵中每一个维度进行归一化处理。
10.如权利要求9所述的方法,其特征在于,所述更新所述效用矩阵的步骤中,所述效用矩阵中每一个值的更新公式为:q=q+α(γq′-q),其中q为本次迭代前所述效用矩阵中的值,q′为所述维度层面的值,α为学习率,取值范围[0~1],γ为衰减因子,取值范围[0~1]。
11.一种累积型变量特征自动生成系统,其特征在于,包括:
生成模块,用于生成多个累积型变量,其中至少部分累积型变量根据效用矩阵中的概率值生成,所述效用矩阵包括至少一个向量,每个向量对应累积型变量的一个参数,向量的长度为对应参数的枚举值个数,向量中的每一个值是参数枚举值生成的概率值;
评估模块,用于对生成的所述累积型变量的性能进行评估;以及,
调整模块,用于根据所述评估的评估结果调整所述效用矩阵中的概率值;
所述生成模块、所述评估模块和所述调整模块协同进行至少一次迭代,将最后一次迭代后所得的累积型变量作为自动生成的累积型变量特征。
12.如权利要求11所述的系统,其特征在于,所述效用矩阵所包括的向量为:主体,客体,函数,时间和条件。
13.如权利要求11所述的系统,其特征在于,所述评估指标包括单变量分析的指标,和/或,多变量分析的指标。
14.如权利要求13所述的系统,其特征在于,所述单变量分析的指标包括以下之一或其任意组合:IV,KS,单bin最大准确率,模型重要性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811430396.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种特征衍生方法、装置及电子设备
- 下一篇:一种特征组合方法、装置及设备