[发明专利]一种信用风险的预测方法及相关设备在审
申请号: | 201811260691.3 | 申请日: | 2018-10-26 |
公开(公告)号: | CN109615503A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 刘新;陈子安 | 申请(专利权)人: | 深圳市元征科技股份有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06N20/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518000 广东省深圳市龙*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多组数据 样本数据 信用 准确度 预测模型 预测 分组 分组处理 风险预测 训练模型 训练样本 可信度 组数据 阈值时 分箱 预设 申请 | ||
本申请公开了一种信用风险的预测方法及相关设备,包括:首先获取多种征信特征中每种征信特征的样本数据;接着对所述每种征信特征的所述样本数据进行分组处理得到多组数据;其次确定所述多组数据中的每组数据与信用风险的相关系数并根据所述相关系数,确定所述样本数据的分组准确度;然后当所述分组准确度大于第一预设阈值时,根据所述多组数据,构造训练样本输入到待训练模型进行训练得到预测模型;最后根据所述预测模型,对待征信用户的信用风险进行预测。采用本发明实施例,可以提升数据分箱的效果、提高信用风险预测结果的可信度。
技术领域
本申请涉及信用风险评估技术领域,尤其涉及一种信用风险的预测方法及相关设备。
背景技术
随着经济的发展,各种贷款业务越来越繁荣、贷款渠道也越来越丰富,与之密切相关的信用风险预测模型(也常称为征信模型)的建模同样手段层出不穷。信用风险预测模型的建立可以方便快速地对客户的信用风险进行评估,以保障贷款双方的利益。在现有建模技术中,通常利用大量已知信用状态的用户的特征数据作为样本数据输入待训练模型进行训练,从而得到需要的智能征信模型。因为采集到的连续型特征的最大值和最小值相差很大,同时会有很多噪声点影响特征数据走向,所以需要对数量巨大的样本数据进行预处理,其中,预处理包括先利用数据分箱技术将样本数据分成多个组(箱),再计算每组数据的证据权重(weight of evidence,woe)系数,并用woe系数替代原始样本数据。然而,目前常用的分箱方法为等距分箱和等频分箱均未考虑信用风险预测模型中自变量特征和因变量特征之间的相关关系,也就是特征数据和信用风险的相关关系,导致数据分箱效果差、训练得到的预测模型的准确性低,从而造成信用风险预测结果的可信度低。
发明内容
本申请实施例提供一种信用风险的预测方法及相关设备。可以提升数据分箱的效果、提高信用风险的预测结果的可信度。
本申请实施例第一方面提供了一种信用风险的预测方法,包括:
获取多种征信特征中每种征信特征的样本数据;
对所述每种征信特征的所述样本数据进行分组处理得到多组数据;
确定所述多组数据中的每组数据与信用风险的相关系数;
根据所述相关系数,确定所述样本数据的分组准确度;
当所述分组准确度大于预设阈值时,根据所述多组数据,构造训练样本输入到待训练模型进行训练得到预测模型;
根据所述预测模型,对待征信用户的所述信用风险进行预测。
其中,所述根据所述多组数据,构造训练样本输入待训练模型进行训练得到征信模型包括:
根据所述多组数据,对所述样本数据进行编码;
将编码后的所述样本数据作为所述训练样本。
其中,所述根据所述多组数据,对所述样本数据进行编码包括:
确定所述多组数据中的所述每组数据的证据权重系数;
将属于所述每组数据的所述样本数据替换为所述证据权重系数。
其中,所述样本数据包括正常样本数据和风险样本数据;
所述确定所述多组数据中的所述每组数据的证据权重系数包括:
确定所述每组数据中所述正常样本数据的第一占比率和所述风险样本数据的第二占比率;
计算所述第一占比率与第一预设值的第一和值、以及所述第二占比率与第二预设值的第二和值;
根据所述第一和值和所述第二和值,确定所述证据权重系数。
其中,所述根据所述相关系数,确定所述样本数据的分组准确度包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市元征科技股份有限公司,未经深圳市元征科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811260691.3/2.html,转载请声明来源钻瓜专利网。