[发明专利]基于GroupLasso的变量自动选择方法、系统及可读介质在审
申请号: | 202010724681.1 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111859682A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 陈亚娟;龙泳先;罗维检;孟颖;边亚瑜 | 申请(专利权)人: | 北京睿知图远科技有限公司 |
主分类号: | G06F30/20 | 分类号: | G06F30/20 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 姚远方 |
地址: | 101500 北京市密云区鼓楼东大街3号山水*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 grouplasso 变量 自动 选择 方法 系统 可读 介质 | ||
1.一种基于Group Lasso的变量自动选择方法,其特征在于,所述方法包括以下步骤:
S1输入数据(A,B),A指代高维度的用户行为特征数据,中的非数值变量需要被提前数值化;B指代A对应的标签数据,B中的标签需要被提前数值化编码;
S2对A数据进行分箱,给每一个分箱衍生出一个0,1编码的指示变量,附加空值(NA)单独分出一个子分箱;
S3对于分箱后的新的变量矩阵Aenc,求解一个分组Group Lasso的优化问题来估计每个子变量的参数mij。
S4对估计的各个变量进行筛选,最终保留筛选下来的变量和一个建立好的逻辑斯蒂回归模型,模型训练。
2.根据权利要求1所述的基于Group Lasso的变量自动选择方法,其特征在于,所述S1中,特征数据A为数值型变量,对于非数值型的变量首先进行数值编码,对标签数据进行哑变量编码的数值标签,对于非数值的标签例取值的标签预先进行0,1量化编码。
3.根据权利要求1所述的基于Group Lasso的变量自动选择方法,其特征在于,所述S2中,选择10个卡方分箱,给每一个分箱衍生出一个0,1编码的指示变量,附加空值(NA)单独分出一个子分箱,将原始的每个变量拆成11个细粒度的子分箱,将原始的每个变量Ai拆分为多个Ai,j子变量。
4.根据权利要求1所述的基于Group Lasso的变量自动选择方法,其特征在于,所述S3中,Group Lasso的问题如下:
其中∑i||mi||2代表对每个大变量分拆出的子变量组的变量系数加上一个组捆绑约束;所述λ为变量选择强度系数。
5.根据权利要求4所述的基于Group Lasso的变量自动选择方法,其特征在于,所述组捆绑约束实现在一个大组内的子变量的系数或者同时取值为0,或者有不为0的取值;在获得参数估计的结果后,将估计出系数同时为0的变量组剔除,保留子变量系数不同时为0的变量组。
6.根据权利要求5所述的基于Group Lasso的变量自动选择方法,其特征在于,所述一个大组是由同一个大变量生成的子变量总合。
7.根据权利要求1所述的基于Group Lasso的变量自动选择方法,其特征在于,所述S4中,对估计的各个变量进行筛选,最终保留筛选下来的变量和一个建立好的逻辑斯蒂回归模型,用于对新数据进行预测。
8.一种基于Group Lasso的变量自动分箱系统,所述系统用于执行如权利要求1-7任一项所述的基于Group Lasso的变量自动选择方法,其特征在于,包括数据采集模块、变量分箱,变量选择与模型训练模块和输出单元。
9.根据权利要求8所述的基于Group Lasso的变量自动分箱系统,其特征在于,所述数据采集模块用于收集用户运行时间的用户行为数据,并且发送到服务器;
所述变量分箱与模型训练模块用于通过采集到的数据对用户特征进行变量选择,并且同时保留被选择的变量训练大数据评分卡模型;
所述输出单元用于输出自动变量选择训练好的模型。
10.一种可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的基于Group Lasso的变量自动选择方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿知图远科技有限公司,未经北京睿知图远科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010724681.1/1.html,转载请声明来源钻瓜专利网。