[发明专利]一种分箱方法、装置、电子设备及存储介质有效
申请号: | 201910537685.6 | 申请日: | 2019-06-20 |
公开(公告)号: | CN112115316B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 刘洋 | 申请(专利权)人: | 北京京东振世信息技术有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F18/24;G06Q10/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种分箱方法、装置、电子设备及存储介质。其中方法包括:基于当前自变量对样本进行统计;根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果;计算各箱的证据权重,根据所述各箱的证据权重确定因变量随当前自变量的变化趋势;根据所述变化趋势,对所述初始分箱结果中与所述变化趋势不相同的异常箱进行调节,生成目标分箱结果。本实施例的技术方案,通过在初始分箱结果的基础上,对局部趋势不符合整体趋势的异常箱进行调整,优化分箱结果,得到目标分箱结果,其中,目标分箱结果中各箱的证据权重符合整体趋势,便于观测当前自变量对因变量的影响程度,简化了对自变量的分析过程。
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种分箱方法、装置、电子设备及存储介质。
背景技术
随着电商行业的不断发展,物流行业也随之快速发展。在物流信息处理中,二分类是一种常见分类方式。在建立二分类模型时,需要对原始数据进行处理,得到与分类目标相关的自变量,选择与因变量关系比较强的因变量进行建模,以增强分类的准确性。因此,分析自变量和因变量的关系在二分类的建模中使至关重要的。
在统计学中,证据权重(Weight of Evidence)是一种评估自变量对因变量影响的重要指标。给定一组样本,证据权重的定义为这组样本中正负样本比例的对数值,例如在用户流失预测中可以定义为流失的用户和非流失用户数量比例的对数值。证据权重随自变量的变化关系可用来判断自变量和因变量的关系。
计算证据权重需要对样本进行分组,将样本分组的操作称为分箱,证据权重的计算结果极大程度上取决于分箱,合理的分箱方式所得到的证据权重能够体现出自变量与因变量固有的关联性,帮助数据科学家更好地进行预测建模,而不合理的分箱方法则会丢失重要信息,导致误判,从而影响最终模型的效果。
目前的样本分箱方式大致分为两种:一是按照分位数对样本进行分箱;二是利用信息论对样本进行分箱。上述两种分箱方法,第一种按照分位数分箱倾向于让每个箱中的样本更加平均,而体现出证据权重随自变量的自然变化趋势;第二种从信息论的角度对分箱所能够带来的额外信息进行了优化。然而,这两种方式都没有强调自变量与因变量关系的可解释性,即,随着自变量值的变化,证据权重的值是否以人的经验可理解的方式变化。在统计模型中选择不可解释的自变量容易引入潜在的不稳定因素。如果自变量和因变量之间存在着固有的相关性,各个分箱的证据权重却没有体现出相应的变化趋势,说明分箱的方法并不是十分合理。
发明内容
本发明提供一种分箱方法、装置、电子设备及存储介质,以优化对样本数据的分箱。
第一方面,本发明实施例提供了一种分箱方法,包括:
基于当前自变量对样本进行统计;
根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果;
计算各箱的证据权重,根据所述各箱的证据权重确定因变量随当前自变量的变化趋势;
根据所述变化趋势,对所述初始分箱结果中与所述变化趋势不相同的异常箱进行调节,生成目标分箱结果。
第二方面,本发明实施例还提供了一种分箱装置,包括:
样本统计模块,用于基于当前自变量对样本进行统计;
初始分箱模块,用于根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果;
变化趋势确定模块,用于计算各箱的证据权重,根据所述各箱的证据权重确定因变量随当前自变量的变化趋势;
目标分箱结果确定模块,用于根据所述变化趋势,对所述初始分箱结果中与所述变化趋势不相同的异常箱进行调节,生成目标分箱结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东振世信息技术有限公司,未经北京京东振世信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910537685.6/2.html,转载请声明来源钻瓜专利网。