[发明专利]一种机器建模过程中的特征筛选方法、装置及电子设备在审
申请号: | 202011566617.1 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112613983A | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 任亮;傅雨梅;徐兵;罗刚 | 申请(专利权)人: | 北京知因智慧科技有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06Q10/06;G06N20/00 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 刘凤 |
地址: | 100000 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器 建模 过程 中的 特征 筛选 方法 装置 电子设备 | ||
本申请提供了一种机器建模过程中的特征筛选方法、装置及电子设备,所述方法包括:获取每个样本用户在每个特征维度下的待构建用户特征;通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度;将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度;基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。这样,本申请通过采用不同的特征筛选方式对多个待构建用户特征进行筛选,确定出更加适合用于训练评估用户可信度模型的训练特征集,间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。
技术领域
本申请涉及大数据处理技术领域,尤其是涉及一种机器建模过程中的特征筛选方法、装置及电子设备。
背景技术
金融的核心竞争力是风控,而风控的关键在于风险定价能力,这主要集中在贷前的客户选择上,因此如何将客户逾期风险控制在一个最优区间是非常重要的。通常利用用户过往的行为特征数据,应用机器学习技术建立模型预测客户在不同场景下未来的风险是实施风险控制的主要手段之一。
但获取用户过往的行为数据的过程中,会产生一些冗余的数据,这些数据对于我们想构建的最优模型没有太多价值,甚至可能会产生副作用。因此在构建模型过程中就需要不断的进行试验和筛选,最后才能构建一个最优模型。但是在这个过程中,通过人为筛选的方式进行,会非常耗费人力,并且还会拖慢模型构建的速度。因此就需要提供一种根据数据的特征自动进行数据筛选的方式,以能够筛选出更准确的数据。
发明内容
有鉴于此,本申请的目的在于提供一种机器建模过程中的特征筛选方法、装置及电子设备,通过采用不同的特征筛选方式对多个待构建用户特征进行筛选,确定出更加适合用于训练评估用户可信度模型的训练特征集,间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。
本申请实施例提供了一种机器建模过程中的特征筛选方法,所述特征筛选方法包括:
获取每个样本用户在每个特征维度下的待构建用户特征;
通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度;
将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度;
基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。
进一步的,所述通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度,包括:
针对于每种特征筛选方式,确定每个特征维度在所述特征筛选方式下的重要性系数;
按照每个特征维度在所述特征筛选方式下的重要性系数,降序排列所述多个特征维度;
将位于前预设位数的特征维度确定为在所述特征筛选方式下的候选维度。
进一步的,所述将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度,包括:
统计每个候选维度被用于构建训练特征集的构建次数;
针对于每个候选维度,当所述候选维度的构建次数等于特征筛选方式的数量时,将所述候选维度确定为目标特征维度。
进一步的,所述特征筛选方式包括信息值筛选方式、基尼系数筛选方式、熵筛选方式、熵率筛选方式以及卡方筛选方式中的多种。
本申请实施例还提供了一种机器建模过程中的特征筛选装置,所述特征筛选装置包括:
获取模块,用于获取每个样本用户在每个特征维度下的待构建用户特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知因智慧科技有限公司,未经北京知因智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011566617.1/2.html,转载请声明来源钻瓜专利网。