[发明专利]基于二次函数及信息最大化的自动化U型分箱算法在审
申请号: | 201910075736.8 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109859033A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 段兆阳;孙博;王华瑞;杨森 | 申请(专利权)人: | 杭州排列科技有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06F17/15 |
代理公司: | 北京华仲龙腾专利代理事务所(普通合伙) 11548 | 代理人: | 李静 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于信用评分技术领域,具体涉及一种基于二次函数及信息最大化的自动化U型分箱算法;采用该算法可以自动产生最佳分箱结果,将实际结构为U型的特征变量实现了U型分箱,实现了在实际业务意义上的解释性,在运行的过程中通过算法的优化减少了不必要的运行成本消耗,最终生成的分箱结果兼顾了业务意义上的可解释性和数据意义上的最佳体现。将此算法嵌入到传统评分卡模型或其他新兴机器学习的建立当中,可以明显提高金融行业传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。 | ||
搜索关键词: | 分箱 算法 信息最大化 二次函数 解释性 自动化 机器学习 金融行业 评分技术 实际结构 实际业务 数据意义 特征变量 运行成本 自动产生 传统的 评分卡 正确率 嵌入 欺诈 消耗 信贷 信用 申请 审批 优化 | ||
【主权项】:
1.基于二次函数及信息最大化的自动化U型分箱算法,其特征在于,包括如下步骤:S1、对建模数据中的原始变量与目标变量相结合应用某种初始分箱结果,例如等距,等频,或者自定义的初始分箱结果,初始分箱结果作为优化算法的基础,进入下一步的一次函数和二次函数拟合中;S2、对初始分箱结果进行一次和二次函数拟合,对比拟合后的一次和二次函数拟合优度,根据限制条件定义初始分箱结果符合的趋势,如果符合二次函数,则需输出此二次函数极值点所在的位置及二次函数开口方向;S3、设置信息最大化算法中的约束条件,包括趋势是否符合U型,U型分箱极值点与二次函数极值点位置相符,U型分箱开口方向与二次函数开口方向相符,最终分箱箱数,每箱数据样本量及特殊样本数等条件;S4、若S2中得到初始分箱结果满足U型结构,则从最终分箱箱数阈值开始,通过组合的方式寻找满足阈值箱数中是否有满足结构为U型,且开口方向一致,极值点所在位置一致的分箱结果,若存在满足条件的分箱结果,则选择其中IV(information value)最大的分箱结果做为最佳结果;S5、若S4步未寻找到符合条件的分箱结果,则再次寻找箱数阈值‑1的分箱结果中是否存在符合所有约束条件的分箱结果,若存在,则选择IV最大的做为最佳结果,否则,再次寻找箱数阈值‑2的分箱结果,直到寻找到满足条件的最佳分箱结果;S6、若样本数据中含有特殊样本,则将特殊样本按照特殊样本最终箱数阈值进行特殊样本的分箱,分箱结束后将特殊样本分箱结果与上述S4或S5的分箱结果合并在一起作为最后的结果输出;若样本数据中不含有特殊样本,则直接将上述S4或S5的分箱结果作为最后的结果输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州排列科技有限公司,未经杭州排列科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910075736.8/,转载请声明来源钻瓜专利网。