[发明专利]基于逐步最优特征选择的自动化模型调优算法在审
申请号: | 201910404903.9 | 申请日: | 2019-05-16 |
公开(公告)号: | CN110223156A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 段兆阳;孙博;杨森 | 申请(专利权)人: | 杭州排列科技有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06Q10/04 |
代理公司: | 北京君泊知识产权代理有限公司 11496 | 代理人: | 王程远 |
地址: | 311121 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 算法 评分卡 自动化模型 差值变量 特征选择 特征选择算法 筛选 金融行业 模型应用 模型预测 目标变量 评分模型 时间成本 特征变量 限制条件 预测能力 自动产生 最优模型 达标 传统的 干扰性 正确率 建模 嵌入 欺诈 主观 挖掘 信贷 审批 申请 | ||
1.基于逐步最优特征选择的自动化模型调优算法,其特征在于,包括如下步骤:
S1、对建模数据样本建立初版评分卡模型,得到初版模型的入模特征变量组合,以及剩余未入模的所有特征变量;
S2、设置逐步最优特征选择算法的基本限制条件,使得逐步选择的特征变量满足入模要求,包括显著性水平P-Value,特征变量系数coefficient以及信息值IV(informationvalue);
S3、根据S1中的初版模型结果及S2中的基本限制条件,首先通过逐步最优特征选择算法挑选能够使得模型预测效果达到最优的特征变量组合,即针对初版模型中所有入模变量,循环删除每一个特征变量后利用剩余特征变量建模,记录下每次模型结果的评估指标KS值,同时针对初版模型未入模特征变量,循环加入每个特征变量后建立模型,同样记录下每次模型结果的评估指标KS值,选择两类操作中KS值达到最大的变量,若KS值最大的情况是原来的变量组合,加入新变量或减少原变量均无法提升KS值,则停止迭代,输出原来的变量组合,进入S5中;若KS值最大的情况不是原来的变量组合,则使用KS值最大的变量组合建模代替原始模型,进入步骤S4中;
S4、在S3的变量组合基础上,针对此变量组合循环删除每一个特征变量建模,记录KS值,同时针对所有未入模变量循环加入每一个特征变量建模,记录KS值,选取使得KS值最大的操作,一直循环进行此步骤,直到模型KS值达到最优为止,进入S5中;
S5、在S3或S4中得到的模型预测效果达到最佳的变量组合基础上,同样通过逐步最优特征选择算法挑选在模型预测效果最佳的同时使得模型达到稳定的变量组合,针对现有模型入模变量,循环删除每一个特征变量后利用剩余特征变量建模,记录下每次模型结果在训练样本和测试样本上的KS差值比例,同时针对现有模型未入模特征变量,循环加入每个特征变量后建立模型,同样记录下每次模型结果在训练样本和测试样本上的KS差值比例,若此时存在使得KS差值比例达到要求的变量组合,选择所有满足要求的变量组合中KS值最大的变量组合,输出此变量组合,进入S7中;若不存在使得KS差值比例达到要求的变量组合,则使用KS差值比例最小的变量组合建模代替原始模型,进入S6中;
S6、在S5的变量组合基础上,针对此变量组合循环删除每一个特征变量建模,记录KS差值比例,同时针对所有未入模变量循环加入每一个特征变量建模,记录KS差值比例,选取使得KS差值比例满足要求的变量组合,输出这些变量组合中KS值最大的组合,一直循环进行此步骤,直到KS差值比例满足要求为止,选择模型KS值最大的变量组合进入S7中;
S7、利用使得模型既有效又稳定的特征变量组合,建立最终的评分卡模型。
2.根据权利要求1所述的基于逐步最优特征选择的自动化模型调优算法,其特征在于,S3的目标函数为:
约束条件为:
其中,TP表示预测为正样本的正向样本数量,FN表示预测为负样本的正向样本数量,FP表示预测为正样本的负向样本数量,TN表示预测为负样本的负向样本数量,B表示输出为0或1的布尔函数,Pvaluei表示模型中第i个特征变量的显著性水平,α表示显著性水平阈值(一般设为0.05),coefficienti表示模型中第i个特征变量的系数,iv表示加入模型的特征变量的IV值,ivthreshold表示IV值的阈值,cofficient表示特征变量放入模型后的系数,Pvalue表示加入模型的特征变量的显著性水平。
3.根据权利要求2所述的基于逐步最优特征选择的自动化模型调优算法,其特征在于,S5的目标函数为:
约束条件同步S3中的约束条件;
其中,KStrain表示训练样本的KS值,KStest表示测试样本的KS值,γ表示KS差值比例要求的阈值。
4.根据权利要求3所述的基于逐步最优特征选择的自动化模型调优算法,其特征在于,所述KS差值比例要求的阈值一般设置为5%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州排列科技有限公司,未经杭州排列科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910404903.9/1.html,转载请声明来源钻瓜专利网。