[发明专利]一种基于深度学习的非结构化数据的违约概率预测方法有效
申请号: | 201711460225.5 | 申请日: | 2017-12-28 |
公开(公告)号: | CN107992982B | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 唐正阳;周春英;朱明杰;朱敏;魏岩 | 申请(专利权)人: | 上海氪信信息技术有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06N20/00 |
代理公司: | 上海智力专利商标事务所(普通合伙) 31105 | 代理人: | 周涛 |
地址: | 200050 上海市长宁区安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 结构 数据 违约 概率 预测 方法 | ||
1.一种基于深度学习的非结构化数据的违约概率预测方法,其特征在于,具体包括以下步骤:
步骤1:集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据,首先,从主流数据平台获取同一信贷主体人的各类身份原始数据;其次,集成包括文本数据和时序数据在内的非结构化数据;然后,针对不同的类型的数据进行相应清洗:针对文本型数据,清洗步骤包括文本拼接、去除非中文字符、去除非大小写英文字符、去除非数字字符以及去除针对金融风控场景的停词和低频词;针对时序型数据,基于不同时序维度进行重采样加工,不同时序维度包括周、日和小时;
步骤2:非结构化数据变换,将非结构化数据变换为深度学习模型可识别的数据格式,针对文本型数据,基于词在文档、语料库中出现的次数以及词与词在特定长度窗口中共现的次数,将文本输入无监督算法转换为向量表达式;针对时序型数据,基于不同时序维度将原始的时间序列数据聚合计算为不同的时序向量表达式;
步骤3:基于深度学习模型框架提取数据特征作为样本数据供上层分类判别模型使用,提取数据特征具体包括定义神经网络结构,将上述向量表达式和用户违约标签作为样本进行神经网络模型训练,抽取隐层特征作为样本数据;基于深度学习模型框架提取数据特征作为样本数据的具体步骤为:首先,定义循环神经网络结构、卷积神经网络结构作为深度学习模型框架;其次,将变换后的向量表达式和用户是否违约的好坏标签作为样本直接进行深度学习模型的端到端训练;然后,提取神经网络隐层特征,即抽取神经网络倒数第二层的数值作为数据特征,最终形成可供上层分类判别模型使用的样本数据;
步骤4:利用复杂机器学习分类算法-集成树模型进行信用风险建模,通过构建的信用风险模型输出作为违约概率预测的数据,具体步骤为:首先,将上述样本数据进行训练集、测试集划分;其次,基于数据量和特征分布情况,预设模型超参数空间;然后,采用最佳超参数搜索算法根据机器学习分类算法-集成树模型的标准性能指标进行模型超参数选择;最后,拟合模型并输出可预测违约概率的数据。
2.根据权利要求1所述的一种基于深度学习的非结构化数据的违约概率预测方法,其特征在于,所述步骤2中将非结构化数据变换为深度学习模型可识别的数据格式的具体步骤为:
判断非结构化数据的数据类型,所述数据类型包括文本型数据和时序型数据;
当数据为文本型数据时,基于无监督算法,具体的可选择算法包括有CountVectorizer、TfidfVectorizer、Word2vec和Glove算法,算法的基本思想是基于文本中某个特定词在语料库中出现的次数,某个特定词在文档中出现的次数,以及某个特定词与其它词在上下文特定长度窗口中共现的次数,将文本输入上述任一算法变换为向量表达式,并且通过最大化词与词共现的概率为目标以优化向量表达式,形成深度学习可识别的文本数据格式;
当所述数据为时序型数据时,基于不同时序维度,具体包括小时、日、周,将时间序列数据聚合计算为不同的向量表达式,所述聚合计算的可选择算法包括有Max、Min、Mean、Median和Quantile。
3.根据权利要求2所述的一种基于深度学习的非结构化数据的违约概率预测方法,其特征在于,出于修改或扩充原始数据的目的,还采用了两种加工向量表达式的方法,具体包括Rescale和Random Crop两种算法:Rescale算法是根据定义的向量大小,将向量缩放至同一维度;Random Crop算法是随机抛弃有限个数的向量行或向量列,形成同一维度大小的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海氪信信息技术有限公司,未经上海氪信信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711460225.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型锂离子电池组
- 下一篇:一种电池测试保存盒