[发明专利]对特征序列进行分箱的方法、装置及计算机可读存储介质在审
申请号: | 202110711207.X | 申请日: | 2021-06-25 |
公开(公告)号: | CN113313206A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 顾凌云;谢旻旗;段湾;李国隆;张涛;潘峻 | 申请(专利权)人: | 上海冰鉴信息科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 钱学宇 |
地址: | 200000 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 序列 进行 方法 装置 计算机 可读 存储 介质 | ||
本申请实施例提供的的对特征序列进行分箱的方法、装置及计算机可读存储介质,涉及数据处理技术领域。首先,基于自顶向下的监督分箱方法对待分箱特征序列进行预分箱,将待分箱特征序列中的特征离散化,以确保预分箱中每个分割点都是当前的最佳划分点;接着,基于自底向上的监督分箱方法对预分箱后的数据子集进行相邻数据子集的独立性检验,对相邻数据子集中卡方值最小的相邻数据子集进行合并,以保证分箱结果的独立性。将通过上述分箱方法分箱后的特征应用于数据模型中,可以保证数据模型的稳定性和区分效果。
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种对特征序列进行分箱的方法、装置及计算机可读存储介质。
背景技术
数据分箱是一种常见的数据预处理技术,建立评分卡或者逻辑回归模型时常用分箱技术对连续特征进行离散化处理,离散化处理后的特征可以降低数据噪声,对特征进行平滑化,从而增加模型的稳定性,降低模型过拟合的风险。
目前常用的特征分箱方法,从是否使用标签数据进行区分,包括有监督和无监督的方法,其中,无监督的方法包括等频、等距分箱方法等;有监督的分箱方法包括Best-KS,决策树分箱和卡方分箱等;从分箱思想区分,有监督的方法包括自顶向下(基于分裂的思想)方法和自底向上(基于合并的思想)方法,自顶向下方法包括Best-KS,决策树分箱方法,自底向上的方法包括卡方分箱方法。
然而不管是基于自顶向下的分箱方法还是自底向上的分箱方法在应用时,可能都存在无法兼顾具体应用场景的需求,存在分箱结果不理想的技术问题。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的在于提供一种对特征序列进行分箱的方法、装置及计算机可读存储介质,用于解决上述技术问题。
第一方面,本申请实施例提供一种对特征序列进行分箱的方法,应用于计算机设备,所述方法包括:
获取数据集,其中,所述数据集包括待分箱特征序列及所述待分箱特征序列中各个特征的标签;
将所述待分箱特征序列中的特征进行排序,并确定出分隔排序后待分箱特征序列的最佳划分点序列;
根据所述最佳划分点序列将所述数据集划分为多个数据子集;
将相邻的两个数据子集进行合并处理,得到所述待分箱特征序列的分箱结果。
上述方案,基于自顶向下的监督分箱方法对待分箱特征序列进行预分箱,将待分箱特征序列中的特征离散化,以确保预分箱中每个分割点都是当前的最佳划分点;接着基于自底向上的监督分箱方法对预分箱后的数据子集进行相邻数据子集的独立性检验,对相邻数据子集中卡方值最小的相邻数据子集进行合并,以保证分箱结果的独立性。将通过上述分箱方法分箱后的特征应用于数据模型中,可以保证数据模型的稳定性和区分效果。
在一种可能的实现方式中,所述将所述待分箱特征序列中的特征进行排序,并确定出分隔排序后待分箱特征序列的最佳划分点序列的步骤,包括:
对所述待分箱特征序列中的各个特征进行排序,并对序列中重复的特征进行去重处理;
计算去重处理后的待分箱特征序列中相邻两个特征的特征平均值,根据计算得到的特征平均值得到以待分箱特征平均值序列;
以所述待分箱特征平均值序列中的特征平均值为分隔点对所述待分箱特征平均值序列进行分割,得到以所述待分箱特征平均值序列中的特征平均值作为最佳划分点的所述最佳划分点序列。
在一种可能的实现方式中,所述以所述待分箱特征平均值序列中的特征平均值为分隔点对所述待分箱特征平均值序列进行分割,得到以所述待分箱特征平均值序列中的特征平均值作为最佳划分点的所述最佳划分点序列的步骤,包括:
以所述待分箱特征平均值序列中的任意一特征平均值作为分割点将所述待分箱特征平均值序列分割为第一数据子集及第二数据子集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海冰鉴信息科技有限公司,未经上海冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110711207.X/2.html,转载请声明来源钻瓜专利网。