[发明专利]信用评分模型训练方法、评分方法及系统、设备及介质有效
申请号: | 202011106825.3 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112017040B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 孙战平 | 申请(专利权)人: | 银联商务股份有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02 |
代理公司: | 北京汇思诚业知识产权代理有限公司 11444 | 代理人: | 汪源 |
地址: | 200135 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信用 评分 模型 训练 方法 系统 设备 介质 | ||
1.一种企业信用评分模型的训练方法,其特征在于,包括:
对原样本数据集进行预处理,生成新样本数据集,所述新样本数据集的数据格式符合逻辑回归算法的格式要求;
将所述新样本数据集划分为训练数据集以及测试数据集;
构建五个子模型;
将所述训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个所述子模型的评分规则;
获取每个所述子模型的权重;以及
根据每个所述子模型的权重以及每个所述子模型的评分规则,计算所述评分模型的评分规则;
其中,所述原样本数据集包括五类子样本数据集,所述五类子样本数据分别一一对应所述五个子模型;
所述将所述训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个所述子模型的评分规则,进一步包括:
将所述训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逐步回归,生成每个子模型中每个连续变量的最初回归系数;
根据每个子模型中的每个连续变量的最初回归系数,剔除每个子模型中的干扰连续变量;
根据每个子模型中剩余连续变量的最初回归系数,选择性的对所述剩余连续变量进行分箱处理,生成剩余连续变量的信息值;
将每个子模型中经过分箱处理后的剩余连续变量分别对应输入至每个子模型中进行逻辑回归,获取剩余连续变量的逻辑回归系数;以及
根据所述每个子模型中每个剩余连续变量的逻辑回归系数计算每个子模型的评分规则。
2.根据权利要求1所述的企业信用评分模型的训练方法,其特征在于,所述五类子样本数据包括为:企业经营信息子样本数据集、企业身份信息子样本数据集、企业风险信息子样本数据集、企业历史信用信息子样本数据集以及企业法人信息子样本数据集;所述五个子模型包括:企业经营信息子模型、企业身份信息子模型、企业风险信息子模型、企业历史信用子模型以及企业法人信息子模型。
3.根据权利要求2所述的企业信用评分模型的训练方法,其特征在于,所述企业经营信息子样本数据集包括同行业内企业所在地的交易排名。
4.根据权利要求1所述的企业信用评分模型的训练方法,其特征在于,所述对原样本数据集进行预处理进一步包括:
对所述原样本数据集进行清洗,获取清洗后的样本数据集;
将所述清洗后的样本数据集分类为多个连续变量以及多个名义变量;
对所述多个连续变量一一进行分箱处理,生成每个所述连续变量的信息值;以及
对所述多个名义变量进行降维处理,生成新名义变量;
其中,所述新样本数据集包括所述多个连续变量、每个所述连续变量的信息值以及所述新名义变量。
5.根据权利要求4所述的企业信用评分模型的训练方法,其特征在于,所述对所述原样本数据集进行清洗进一步包括:
对所述原样本数据集中的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否缺失,当第一组数据中第一类别的数据值缺失时,将所述第一组数据中的所述第一类别的数据值采用第一数值代替;或
对所述原样本数据集中的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否异常,当第二组数据中第二类别的数据值存在异常时,将所述第二组数据剔除。
6.根据权利要求4所述的企业信用评分模型的训练方法,其特征在于,所述将所述新样本数据集划分为训练数据集以及测试数据集进一步包括:
对所述新样本数据集进行上采样处理,生成标准样本数据;以及
将所述标准样本数据分为训练数据集以及测试数据集。
7.根据权利要求6所述的企业信用评分模型的训练方法,其特征在于,对所述新样本数据集进行上采样处理进一步包括:
选取所述新样本数据集中的第M个新样本数据;
在与所述第M个新样本数据近邻的F个新样本数据中选取一个新样本数据作为插入样本数据;
所述标准样本数据集包括所述插入样本数据以及所述新样本数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银联商务股份有限公司,未经银联商务股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011106825.3/1.html,转载请声明来源钻瓜专利网。