[发明专利]基于二次函数及信息最大化的自动化U型分箱算法在审
申请号: | 201910075736.8 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109859033A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 段兆阳;孙博;王华瑞;杨森 | 申请(专利权)人: | 杭州排列科技有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06F17/15 |
代理公司: | 北京华仲龙腾专利代理事务所(普通合伙) 11548 | 代理人: | 李静 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分箱 算法 信息最大化 二次函数 解释性 自动化 机器学习 金融行业 评分技术 实际结构 实际业务 数据意义 特征变量 运行成本 自动产生 传统的 评分卡 正确率 嵌入 欺诈 消耗 信贷 信用 申请 审批 优化 | ||
1.基于二次函数及信息最大化的自动化U型分箱算法,其特征在于,包括如下步骤:
S1、对建模数据中的原始变量与目标变量相结合应用某种初始分箱结果,例如等距,等频,或者自定义的初始分箱结果,初始分箱结果作为优化算法的基础,进入下一步的一次函数和二次函数拟合中;
S2、对初始分箱结果进行一次和二次函数拟合,对比拟合后的一次和二次函数拟合优度,根据限制条件定义初始分箱结果符合的趋势,如果符合二次函数,则需输出此二次函数极值点所在的位置及二次函数开口方向;
S3、设置信息最大化算法中的约束条件,包括趋势是否符合U型,U型分箱极值点与二次函数极值点位置相符,U型分箱开口方向与二次函数开口方向相符,最终分箱箱数,每箱数据样本量及特殊样本数等条件;
S4、若S2中得到初始分箱结果满足U型结构,则从最终分箱箱数阈值开始,通过组合的方式寻找满足阈值箱数中是否有满足结构为U型,且开口方向一致,极值点所在位置一致的分箱结果,若存在满足条件的分箱结果,则选择其中IV(information value)最大的分箱结果做为最佳结果;
S5、若S4步未寻找到符合条件的分箱结果,则再次寻找箱数阈值-1的分箱结果中是否存在符合所有约束条件的分箱结果,若存在,则选择IV最大的做为最佳结果,否则,再次寻找箱数阈值-2的分箱结果,直到寻找到满足条件的最佳分箱结果;
S6、若样本数据中含有特殊样本,则将特殊样本按照特殊样本最终箱数阈值进行特殊样本的分箱,分箱结束后将特殊样本分箱结果与上述S4或S5的分箱结果合并在一起作为最后的结果输出;若样本数据中不含有特殊样本,则直接将上述S4或S5的分箱结果作为最后的结果输出。
2.根据权利要求1所述的基于二次函数及信息最大化的自动化U型分箱算法,其特征在于,S2中所述的拟合优度计算方式如下:
其中,n为样本数量,yi为待拟合数值,其均值为拟合值为
3.根据权利要求1所述的基于二次函数及信息最大化的自动化U型分箱算法,其特征在于,S3中所述信息最大化算法中的约束条件为:
其中,R2二次表示二次函数拟合优度,R2一次表示一次函数拟合优度,c表示倍数数值,xextrem表示分箱结果极值点所在位置,x二次extrem表示二次函数极值点所在位置,aU型表示U型分箱开口方向,a二次表示二次函数开口方向,n表示最终分箱数,nthreshold表示最终分箱数阈值,Si表示第i箱数据样本量大小,Sthreshold表示每箱样本量阈值,Special表示特殊样本值,B函数为计算特殊样本的箱数的函数,Bthreshold表示特殊样本最终箱数阈值。
4.根据权利要求1所述的基于二次函数及信息最大化的自动化U型分箱算法,其特征在于,S4中所述IV(information value)最大的分箱结果做为最佳结果方式为:
其中,yi表示第i组箱中响应标签的数量,yT表示全部样本中响应标签的数量,ni表示第i组箱中未响应标签的数量,nT表示全部样本中未响应标签的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州排列科技有限公司,未经杭州排列科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910075736.8/1.html,转载请声明来源钻瓜专利网。