[发明专利]密度聚类分箱方法在审
申请号: | 202110532625.2 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113378889A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 杜亚威;宋文甫 | 申请(专利权)人: | 深圳萨摩耶数字科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/06 |
代理公司: | 上海大邦律师事务所 31252 | 代理人: | 王松 |
地址: | 518049 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 密度 聚类分箱 方法 | ||
本发明揭示了一种密度聚类分箱方法,步骤A、对风控数据集进行预处理;步骤B、为数据集中数据的每个属性划分密度聚类,获取各个属性的密度聚类簇的中心程度或判断其是否聚焦;步骤C、通过迭代损失函数进行密度聚类分箱,获取第一次分箱结果;步骤D、若密度聚类分箱的区间符合设定要求,则减小属性距离,并再次进行密度聚类分箱,直至密度聚类分箱的区间符合设定要求。本发明提出的密度聚类分箱方法,可实现自动化、自适应、精准地大批量分箱操作。
技术领域
本发明属于风控技术领域,涉及一种分箱方法,尤其涉及一种密度聚类分箱方法。
背景技术
在风控领域中:为更好的区分数据特征,让数据易于理解和区分,常将海量数据进行分箱,以帮助风控人员梳理指标。由于数据量大、属性多,有自动化分箱需求。
分箱是指将连续数据或海量离散数据进行分段,使其变为离散化的区间的特征离散化的特征工程方法。随机分箱示范如图2所示,该分箱将一组数据随机分成25组。
分箱的优势在于:
(1)分箱后的特征对异常数据有更强的鲁棒性。比如年龄中有一个异常值为300,分箱之后就可能划到80这一箱中,而如果直接入模的话会对模型造成很大干扰。
(2)特征离散化之后,每个变量有单独的权重,可以为逻辑回归模型引入了非线性,能够提升模型表达能力,加大拟合。
(3)特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。
(4)可以将缺失作为独立的一类带入模型。
(5)稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。
由于监控属性和指标数量众多,有自动分箱方面的需求,所以常采用无需标注数据的无监督分箱方法(如等距分箱、等频分箱和聚类分箱)。
分箱输出表的最终效果可参考图3;图3为按属性(如all_rain_score列)进行等距分箱的输出效果图,密度聚类分箱结果与之类似。
在实际操作中,基础的等距/等频分箱效果不够好,常需要风控人员手动编辑。例如,等距分箱(按等距区间或自定义区间进行分箱)中常出现某一分箱内包含90%以上的数据,这样的分箱效果很差;等频分箱(按数据的频率进行分箱)中,如果出现某一值(或区间)数据特别多,比如100个数据有30个数据为1,而你要自动分为十个分箱,那就很容易报错(就算不报错,分箱效果也不好)。
而聚类分箱则可以处理这方面的问题,一般使用简单易用且效果良好的k_means算法进行聚类分箱。
k_means聚类分箱流程:聚类过程包括:(1)选择k个点作为初始聚类中心,将连续属性值进行聚类;(2)计算其余所有点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在聚类中去;(3)重新计算每个聚类的所有点的平均值,并将其作为新的聚类中心点;(4)迭代直至聚类中心点改变量小于阈值。聚类分箱:处理聚类之后的到的k个簇,得到每个簇对应的分类值(类似这个簇的标记),将在同一个簇内的属性值做为统一标记,这每个簇都是一个分箱区间。
上述方法都需要事先确定分箱数,并且K_means聚类分箱问题有:(1)k值和初始聚类的选取问题需要花很大功夫取解决;(2)对非凸数据集难收敛;(3)对噪声和异常点比较敏感。
这使得其在在风控领域自动化分箱情况下效果不佳,而密度聚类分箱则可以弥补上述缺陷。
密度聚类是基于密度的聚类算法假设聚类结构能够通过样本分布的紧密程度确定,以数据集在空间分布上的稠密程度为依据进行聚类,即只要一个区域中的样本密度大于某个阈值,就把它划入与之相近的簇中。
以基础的DBSCAN算法为例:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳萨摩耶数字科技有限公司,未经深圳萨摩耶数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110532625.2/2.html,转载请声明来源钻瓜专利网。