[发明专利]一种基于深度学习的非结构化数据的违约概率预测方法有效
申请号: | 201711460225.5 | 申请日: | 2017-12-28 |
公开(公告)号: | CN107992982B | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 唐正阳;周春英;朱明杰;朱敏;魏岩 | 申请(专利权)人: | 上海氪信信息技术有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06N20/00 |
代理公司: | 上海智力专利商标事务所(普通合伙) 31105 | 代理人: | 周涛 |
地址: | 200050 上海市长宁区安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及到一种基于深度学习的非结构化数据的违约概率预测方法,该方法包括有:集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据;将非结构化数据变换为深度学习模型可识别的数据格式;基于深度学习模型框架,提取数据特征作为样本数据;针对提取出来的样本数据,利用复杂机器学习分类算法‑集成树模型构建信用风险模型,输出违约概率预测。本发明的方法通过挖掘文本和时序等非结构化数据,基于深度学习和大数据技术捕捉信贷主体人潜在的风险行为模式,在此之上进行高维数据信用风险建模,实现了对信贷主体人自动、全面、流程化的定量信用风险分析以提升金融风控能力和降低信贷风险。 | ||
搜索关键词: | 一种 基于 深度 学习 结构 数据 违约 概率 预测 方法 | ||
【主权项】:
1.一种基于深度学习的非结构化数据的违约概率预测方法,其特征在于,具体包括以下步骤:步骤1:集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据,首先,从主流数据平台获取同一信贷主体人的各类身份原始数据;其次,集成包括文本数据和时序数据在内的非结构化数据;然后,针对不同的类型的数据进行相应清洗:针对文本型数据,清洗步骤包括文本拼接、去除非中文字符、去除非大小写英文字符、去除非数字字符以及去除针对金融风控场景的停词和低频词;针对时序型数据,基于不同时序维度进行重采样加工,不同时序维度包括周、日和小时;步骤2:非结构化数据变换,将非结构化数据变换为深度学习模型可识别的数据格式,针对文本型数据,基于词在文档、语料库中出现的次数以及词与词在特定长度窗口中共现的次数,将文本输入无监督算法转换为向量表达式;针对时序型数据,基于不同时序维度将原始的时间序列数据聚合计算为不同的时序向量表达式;步骤3:基于深度学习模型框架提取数据特征作为样本数据供上层分类判别模型使用,提取数据特征具体包括定义神经网络结构,将上述向量表达式和用户违约标签作为样本进行神经网络模型训练,抽取隐层特征作为样本数据;基于深度学习模型框架提取数据特征作为样本数据的具体步骤为:首先,定义循环神经网络结构、卷积神经网络结构作为深度学习模型框架;其次,将变换后的向量表达式和用户是否违约的好坏标签作为样本直接进行深度学习模型的端到端训练;然后,提取神经网络隐层特征,即抽取神经网络倒数第二层的数值作为数据特征,最终形成可供上层分类判别模型使用的样本数据;步骤4:利用复杂机器学习分类算法‑集成树模型进行信用风险建模,通过构建的信用风险模型输出作为违约概率预测的数据,具体步骤为:首先,将上述样本数据进行训练集、测试集划分;其次,基于数据量和特征分布情况,预设模型超参数空间;然后,采用最佳超参数搜索算法根据机器学习分类算法‑集成树模型的标准性能指标进行模型超参数选择;最后,拟合模型并输出可预测违约概率的数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海氪信信息技术有限公司,未经上海氪信信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711460225.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种新型锂离子电池组
- 下一篇:一种电池测试保存盒