[发明专利]变量筛选方法、装置、非易失性存储介质及处理器在审
申请号: | 202211413169.0 | 申请日: | 2022-11-11 |
公开(公告)号: | CN115713345A | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 槐正;徐冬冬;张涛;姜承祥;付迎鑫;张哲;姬照中;徐锐;王健;徐蕾 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06Q30/018 | 分类号: | G06Q30/018;G06Q30/0201;G06Q30/0202;G06Q30/0601;G06F18/214 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 董文倩 |
地址: | 100033*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 变量 筛选 方法 装置 非易失性 存储 介质 处理器 | ||
1.一种变量筛选方法,其特征在于,包括:
获取用于评估目标变量的自变量,其中,所述目标变量对应一个或多个自变量;
使用预设皮尔逊相关系数模型评估所述自变量与所述目标变量的线性关系,确定线性相关度;
在所述目标变量对应多个所述线性相关度高于预设相关度阈值的自变量的情况下,选取所述线性相关度最高的自变量作为所述目标变量的样本变量,其中,所述样本变量和所述目标变量作为训练目标预测模型的训练数据,所述目标预测模型用于对所述自变量分析确定预测变量。
2.根据权利要求1所述的方法,其特征在于,在选取所述线性相关度最高的自变量作为所述目标变量的样本变量之后,所述方法还包括:
识别所述自变量的变量类型,其中,所述变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;
在所述自变量属于所述量类别型变量的情况下,使用预设卡方检验模型检验所述目标预测模型的所述自变量和所述预测变量的关联性;
在所述自变量不属于所述类别型变量的情况下,使用预设回归模型检验所述目标预测模型的所述自变量和所述预测变量的关联性。
3.根据权利要求1所述的方法,其特征在于,获取用于评估目标变量的自变量包括:
获取所述自变量的属性值;
使用预设评估算法对所述自变量的属性值进行分析,确定所述自变量的预测价值,其中,所述预测价值用于表示根据所述自变量确定的预测变量与所述自变量对应的目标变量的符合程度;
选取所述预测价值高于预设价值阈值的自变量为用于评估所述目标变量的自变量。
4.根据权利要求3所述的方法,其特征在于,使用预设评估算法对所述自变量的属性值进行分析,确定所述自变量的预测价值包括:
识别所述自变量的变量类型,其中,所述变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;
在所述自变量属于所述区间型变量的情况下,将所述自变量分箱为多个区间变量;
使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值。
5.根据权利要求4所述的方法,其特征在于,使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值包括:
使用预设证据权重算法对每个所述区间变量进行分析,确定每个所述区间变量的证据权重,其中,所述证据权重用于表示所述区间变量的好变量比例和坏变量比例之比的对数,所述好变量比例为每个区间变量中好变量相对于全部区间变量中好变量的比例,所述坏变量比例为每个区间变量中坏变量相对于全部区间变量中坏变量的比例;
使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值。
6.根据权利要求5所述的方法,其特征在于,使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值包括:
使用预设信息价值评估模型对每个所述区间变量的证据权重进行分析,确定每个所述区间变量的信息价值,并将所述信息价值作为所述预测价值,其中,所述信息价值表示所述自变量区分所述目标变量中的事件和非事件的能力;或
使用预设基尼指数模型对每个所述区间变量的证据权重进行分析,确定每个所述区间变量的基尼指数,并将所述基尼指数作为所述预测价值,其中,所述基尼指数用于评估所述区间变量的不纯度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211413169.0/1.html,转载请声明来源钻瓜专利网。