[发明专利]数据离散化调控方法及系统以及风险控制模型建立方法及系统在审

专利信息
申请号: 202010662211.7 申请日: 2020-07-10
公开(公告)号: CN111861706A 公开(公告)日: 2020-10-30
发明(设计)人: 林建明 申请(专利权)人: 深圳无域科技技术有限公司
主分类号: G06Q40/02 分类号: G06Q40/02
代理公司: 上海大邦律师事务所 31252 代理人: 孙成
地址: 518000 广东省深圳市南山区粤海街*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 离散 调控 方法 系统 以及 风险 控制 模型 建立
【说明书】:

发明揭示了一种数据离散化调控方法及系统以及互联网金融领域风险控制模型建立方法及系统,所述调控方法包括:步骤S1、获取变量的属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;步骤S2、形成若干离散化模型,在不同的离散化模型中,使用不同的离散算法对变量进行离散化;步骤S3、根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型。本发明提出的金融风控模型中的变量离散化方式调控方法及系统以及互联网金融领域风险控制模型建立方法及系统,可提高处理效率及分类准确性。

技术领域

本发明属于数据处理技术领域,涉及一种变量离散化调控方法,尤其涉及一种数据离散化调控方法及系统以及互联网金融领域风险控制模型建立方法及系统。

背景技术

在信贷风险识别领域,个人特征数据的分布形态有时并不适合建立机器学习模型,比如决策树算法需要运用在离散属性上,如果离散值过多,对数据存储空间以及计算时间的要求都很高。另一方面,连续变量离散化是建模前特征工程的重要步骤,将数值范围较大的连续变量经过适宜的离散化处理之后不仅易于数据的存储,更重要的是离散化后的数据可以使得机器学习模型更具有鲁棒性,这样可以有效减少过拟合和欠拟合的问题,更好的解决金融数据挖掘中的分类问题。

在现有的连续数据离散化的实际应用中,主要的方法有两类:有监督离散化和无监督离散化。无监督离散化包括等频和等距离散化,思想简单、容易实现,但没有用到标签的信息,很难获得较好的离散化效果。监督式的离散化包括卡方分箱、基于信息熵的分箱方法、基于粗糙集的离散化方法以及其他优化算法。

对于信贷风险识别的方案,现有技术存在如下缺陷:现有离散化方法虽然很多、但是对于具体的一个问题而言,没有统一的方法。比如信贷方面的个人特征变量,首先这些变量包括数值型和类别型,数值型变量有连续的和离散的,类型性变量也有有序和无序之分,其次变量的变化范围也很不一致。针对这种复杂的情况,现有技术没有研究不同类型的变量对不同方法的适用性。

有鉴于此,如今迫切需要设计一种新的对不同类型变量的处理方式,以便克服现有处理方式存在的上述至少部分缺陷。

发明内容

本发明提供一种数据离散化调控方法及系统以及互联网金融领域风险控制模型建立方法及系统,可提高处理效率及分类准确性。

为解决上述技术问题,根据本发明的一个方面,采用如下技术方案:

一种数据离散化调控方法,所述调控方法包括:

步骤S1、获取变量属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;

步骤S2、形成若干离散化模型,根据不同变量的特征使用相对应的离散化模型对变量进行离散化;所述离散化模型包括:卡方分箱模型、MDLP模型、CAIM模型及遗传算法模型;

步骤S3、根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型;

对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的变量,将其分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;卡方分箱模型中,卡方是度量两个类别相似性的一种方法,在一定置信度下,如果两个类别的卡方值越小,说明两个类别相似度越高,卡方分箱模型用来进行变量类别之间的合并;

对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值、且本身区分度高于设定第五阈值的变量,将其分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;MDLP模型中,信息熵用来度量某种特定信息出现的概率,信息熵越低,特征对目标变量的分类效果越好;信息增益能表示加入新的条件后信息熵的降低程度;MDLP模型依据信息增益最大值依次寻找最优切分点;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳无域科技技术有限公司,未经深圳无域科技技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010662211.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top