[发明专利]累积型变量特征自动生成方法及其系统在审
申请号: | 201811430396.8 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109635954A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 陈露佳;肖凯;孟昌华;王维强;赵闻飙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 变量特征 向量 效用矩阵 自动生成 枚举 概率 计算机技术领域 快速寻找 评估结果 一次迭代 显著性 评估 迭代 申请 | ||
本申请涉及计算机技术领域,公开了一种累积型变量特征自动生成方法及其系统,能够快速寻找到对业务有显著性的累积型变量特征。该方法对以下步骤至少迭代一次,将最后一次迭代后所得的累积型变量作为自动生成的累积型变量特征:生成多个累积型变量,其中至少部分累积型变量根据效用矩阵中的概率值生成,所述效用矩阵包括至少一个向量,每个向量对应累积型变量的一个参数,向量的长度为对应参数的枚举值个数,向量中的每一个值是参数枚举值生成的概率值;对生成的所述累积型变量的性能进行评估;根据所述评估的评估结果调整所述效用矩阵中的概率值。
技术领域
本申请涉及计算机技术领域,特别涉及累积型变量特征自动生成技术。
背景技术
AutoML是谷歌的一个能够制造子AI的AI系统,是目前比较热门的研究领域,期望能够实现模型学习的自动化。而变量生成是AutoML领域里最关键的环节之一。另一方面,目前的数据分析行业,特征工程的成本也非常巨大,因此特征自动生成的价值是巨大的。
目前行业内针对velocity变量生成有一些方案,比如随机生成一批velocity变量,之后进行有监督方式进行变量删选,将优秀的变量保留下来,之后再对变量的参数进行随机游走,以进一步生成新的velocity。该类方法的缺点,是在生成新的velocity的时候,没有针对性的往更好的方向生成,因此不容易找到好的velocity变量,或者找到好的velocity变量的效率比较低。
发明内容
本申请的目的在于提供一种累积型变量特征自动生成方法及其系统,可以提高找到理想累积型变量特征的效率。
为了解决上述问题,本申请公开了一种累积型变量特征自动生成方法,对以下步骤至少迭代一次,将最后一次迭代后所得的累积型变量作为自动生成的累积型变量特征:
生成多个累积型变量,其中至少部分累积型变量根据效用矩阵中的概率值生成,该效用矩阵包括至少一个向量,每个向量对应累积型变量的一个参数,向量的长度为对应参数的枚举值个数,向量中的每一个值是参数枚举值生成的概率值;
对生成的该累积型变量的性能进行评估;以及,
根据该评估的评估结果调整该效用矩阵中的概率值。
在一个优选例中,该效用矩阵所包括的向量为:主体,客体,函数,时间和条件。
在一个优选例中,该评估指标包括单变量分析的指标,和/或,多变量分析的指标。
在一个优选例中,该单变量分析的指标包括以下之一或其任意组合:IV,KS,单bin最大准确率,模型重要性。
在一个优选例中,该多变量分析的指标包括以下之一或其任意组合:stepwise,vif,correlation。
在一个优选例中,该生成多个累积型变量的步骤中,至少一个累积型变量以随机方式生成。
在一个优选例中,该生成多个累积型变量的步骤中,至少一个累积型变量进行过主体之间的交叉或者条件之间的交叉。
在一个优选例中,在第一次迭代之前,该效用矩阵中以0-1之间的随机数初始化,或使用其他场景下训练好的效用矩阵。
在一个优选例中,该根据该评估的评估结果调整该效用矩阵中的概率值,进一步包括:
将每一个该累积型变量的该评估结果分配到该累积型变量的所有参数维度中;
计算维度层面的值;
根据该维度层面的值,更新该效用矩阵;
对该效用矩阵中每一个维度进行归一化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811430396.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种特征衍生方法、装置及电子设备
- 下一篇:一种特征组合方法、装置及设备