[发明专利]一种对海量变量进行筛选的方法及设备有效
申请号: | 201310023651.8 | 申请日: | 2013-01-22 |
公开(公告)号: | CN103942403B | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 叶家杰;盛子夏 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京国昊天诚知识产权代理有限公司11315 | 代理人: | 许志勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 变量 进行 筛选 方法 设备 | ||
1.一种对变量进行筛选的方法,包括:
(a)从候选变量池中选择符合预定显著性限值的变量以构成第一变量池;
(b)针对所述第一变量池中的变量,基于第一预定规则获得第一变量组合,所述第一预定规则为stepwise筛选规则;
(c)计算所述第一变量组合中各变量的方差膨胀因子值和标准化参数估计值;
(d)确定第一变量组合中的变量是否有任一变量的方差膨胀因子值大于预定的方差膨胀因子值;
(e)如果是,取第一变量组合中方差膨胀因子值最高的n个变量,并比较所述n个变量的方差膨胀因子值和标准化参数估计值,基于比较结果更新所述候选变量池,并基于更新后的候选变量池,执行步骤(a)~(d);
(f)如果确定第一变量组合中的变量的方差膨胀因子值小于或等于预定的方差膨胀因子值,将所述第一变量组合作为最终变量组合输出,并将输出的所述变量通过加权的方式形成一个回归模型并应用于数据处理与计算中。
2.如权利要求1所述的方法,还包括:
获得所述候选变量池中各变量对目标变量的F检验值;并且在所述方法其中,比较所述n个变量的方差膨胀因子值和标准化参数估计值的步骤包括:将所述n个变量中F检验值最高的变量置为初始的冠军变量,将其余n-1个变量置为挑战变量,将挑战变量的标准化参数估计和F检验值与冠军变量的标准化参数估计值和F检验值进行比较。
3.如权利要求1所述的方法,其中,所述n为大于等于2的整数。
4.如权利要求2所述的方法,其中,将所述挑战变量的标准化参数估计值和F检验值与冠军变量的标准化参数估计值和F检验值进行比较的步骤包括:
(e1)将第i个挑战变量的标准化参数估计值和F检验值与第i个冠军变量的标准化参数估计值和F检验值进行比较;以及
(e2)基于比较结果从第一变量组合中剔除所述第i个挑战变量和第i个冠军变量中的一个,将第i个挑战变量和第i个冠军变量中未被剔除的那个变量作为第i+1个冠军变量;
(e3)继续执行步骤(e1)和(e2),直到剔除n-1个变量;其中:i=1,2,3,…,n-1;第1个冠军变量即为初始冠军变量。
5.如权利要求4所述的方法,其中,步骤(e2)包括:
若第i个挑战变量的标准化参数估计值和F检验值都大于第i个冠军变量的相应值,则将所述第i个冠军变量从第一变量组合中剔除,将所述第i个挑战变量置为第i+1个冠军变量。
6.如权利要求4所述的方法,其中,步骤(e2)包括:
若所述第i个挑战变量的标准化参数估计值和F检验值都小于所述第i个冠军变量的相应值,则从第一变量组合中剔除所述第i个挑战变量,将所述第i个冠军变量置为第i+1个冠军变量。
7.如权利要求4所述的方法,其中,步骤(e2)包括:
若第i个挑战变量的标准化参数估计值小于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值大于第i个冠军变量的F检验值,或者所述第i个挑战变量的标准化参数估计值大于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值小于第i个冠军变量的F检验值,则利用所述第i个挑战变量、所述第i个冠军变量与目标变量构建回归模型,重新计算所述第i个挑战变量和所述第i个冠军变量在所述回归模型中的标准化的参数估计值,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型的中标准化的参数估计值较小的一个变量从第一变量组合中剔除,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型中标准化的参数估计值较大的一个变量置为第i+1个冠军变量。
8.如权利要求4~7任一项所述的方法,其特征在于,基于比较结果更新所述候选变量池的步骤包括:
将在第一变量组合中剔除的n-1个变量从所述候选变量池中剔除。
9.如权利要求1~7任一项所述的方法,其特征在于,从候选变量池中选择符合预定显著性限值的变量以构成第一变量池包括:
获得变量的回归系数的T检验值,获得所述T检验值所对应的显著性概率P值作为变量的显著性值;选择所述显著性值小于预定显著性限值的变量以构成第一变量池。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310023651.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可快速拆卸的高强度刀具
- 下一篇:一种具有保护结构的IBC集装吊桶
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用