[发明专利]一种基于第三方数据的消费金融信用评分卡开发方法在审
申请号: | 202010236413.5 | 申请日: | 2020-03-30 |
公开(公告)号: | CN111311128A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 江远强 | 申请(专利权)人: | 百维金科(上海)信息科技有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q40/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200122 上海市崇明区长兴镇潘园公*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 第三 数据 消费 金融 信用 评分 开发 方法 | ||
本发明提供了一种基于第三方数据的消费金融信用评分卡开发方法,包括目标变量定义、数据获取、探索性数据分析、数据预处理、特征工程、模型开发、模型开发和信用评分;所述特征工程包括变量分箱、WOE转换、信息值IV和变量相关系数计算、根据信息值IV和变量相关系数进行特征筛选,所述变量分箱包括:通过卡方分箱选出对逾期状态影响最显著的字段、针对特征变量进性自动化分箱;所述模型评估,包括根据模型评估指标评估模型的拟合能力,并利用逻辑回归的参数调参训练。实施本发明技术方案,首先,增加了第三方数据,从而增加了风险识别的维度;再次,增加了变量之间的相关性检验,一方面能够防止进入模型的变量过多,增加计算成本,另一方面能够防止模型过拟合,为模型构建增加稳定性;最后,通过模型评估和调参,增强了模型的准确性。
技术领域
本发明涉及消费金融行业评分卡模型开发构建技术,特别涉及一种基于第三方数据的消费金融信用评分卡开发方法。
背景技术
据有关数据显示:2018年我国消费金融市场(不含房贷)规模为8.45万亿元,市场渗透率为22.36%,预计到2020年我国消费金融市场规模将达到12万亿元,届时渗透率将达25.05%。由此可以判断,我国消费金融行业处于发展初期,仍有较大增长空间。传统金融风控进行风险控制所使用的数据维度主要为:人行征信、银行流水、平台申请的个人基本属性数据,对于大数据风控要求,数据维度及风险把握不足。
目前,金融大数据使用了更多的第三方数据,主要包括多头借贷行为、互联网、网上购物、第三方支付、反欺诈等数据,极大丰富了信用评估的可用数据维度,这使得全方位有效的进行信用评估成为可能,但同时也对评分卡模型的特征处理性能提出了更高的要求。金融信贷机构特征集合普遍具有数量多、纬度高的特点,但评分卡应关注的并不是数据规模本身,而是这些海量数据中有价值的特征,按照传统的方式人工进行特征筛选已不能很好的适用当前的信贷场景。
另外,传统的数据处理当中的分箱方法主要利用操作较为简单的等频分箱和等距分箱,而这两种无监督的分箱方法不足之处在于:忽略了实例所属的类型,落在正确区间里的偶然性很大。分箱数量主要靠主观经验,未必是合适的数量。分箱后,每个区间的合理性,缺乏科学的评估和调整。
发明内容
为了解决上述技术问题,本发明中披露了一种基于第三方数据的消费金融信用评分卡开发方法,本发明的技术方案是这样实施的:
一种基于第三方数据的消费金融信用评分卡开发方法,包括以下步骤:
步骤一:目标变量定义,根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内逾期天数超过90天的用户定义为“坏用户”,将表现期内逾期天数未超过90天的用户定义为“好用户”;
步骤二:数据获取,选取建模的客户,获取金融机构自身的字段和客户授权获取的第三方数据字段;
步骤三:探索性数据分析,对所述金融机构自身的字段和所述第三方数据字段进行分类,了解数据的大体情况,包括每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值以及分布情况;
步骤四:数据预处理,包括脏数据清洗、缺失值处理和异常值处理;
步骤五:特征工程,包括变量分箱、WOE转换、信息值IV和变量相关系数计算、根据信息值IV和变量相关系数进行特征筛选;
步骤六、数据集划分,随机或跨时间划分训练集、验证集;
步骤七:模型开发,以特征筛选后获得的特征变量为基础,构建模型,运用逻辑回归算法,进行模型拟合;对拟合后的变量系数进行检查,删掉符号相反的变量,后再次进行模型拟合;循环以上步骤,直到变量系数全部正确;最后删除相关系数矩阵较高的特征变量或者VIF较高的特征变量,排除变量之间的多重共线性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百维金科(上海)信息科技有限公司,未经百维金科(上海)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010236413.5/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置