[发明专利]一种快速卡方分箱的方法及装置有效
申请号: | 202110521538.7 | 申请日: | 2021-05-13 |
公开(公告)号: | CN112990487B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 顾凌云;谢旻旗;段湾;王逸卿;张涛;潘峻 | 申请(专利权)人: | 上海冰鉴信息科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 杨俊华 |
地址: | 200000 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 卡方分箱 方法 装置 | ||
本申请公开了一种快速卡方分箱的方法及装置,能够根据特征值进行特征值排序,得到特征值排序结果,通过特征值排序结果将每个特征值划分为多个特征区间并进行计算,得到多个初始卡方值并保存在预设哈希列表中,通过初始双向链表连通相邻的所述特征区间。通过哈希列表中的预设键值获得位置标签,确定最小卡方值的位置标签对应的当前节点,根据当前节点内容和后一个节点内容,得到合并后的节点,将后一个节点删除,对前一个节点的卡方值更新直到满足设定条件。通过双向链表能有效地保存每次操作的记录,在删除节点后,在可能存在相关处理结果不能达到预期的前提下,可以进行初始双向链表的恢复,进而能有效地避免重新分箱而导致时间浪费的问题。
技术领域
本公开涉及卡方分箱技术领域,特别涉及一种快速卡方分箱的方法及装置。
背景技术
在相关云业务的机器学习建模的特征工程中,变量分箱是非常重要的一个步骤,其中,变量分箱对于异常值/缺失值处理、模型非线性表达以及降低过拟合风险等方面都有很重要的作用。
在相关的监督分箱中,卡方分箱是一种主流的且有效的方案。其原理是两个分箱的卡方值相差越小,表示数据具有相似类别的分布情况,这样就可以进行合并,反之则不能进行合并。通常情况下卡方分箱是预先设置的排序方法进行特征值排序,并进行划分类属区间,计算每一对相邻区间对应的卡方值,将最小的区间进行合并,循环迭代直到触发终止条件包括卡方阈值、最大分箱数和单调性等。但是,相关卡方分箱技术存在耗时较长的技术问题。
发明内容
为改善上述背景技术存在的技术问题,本公开提供了一种快速卡方分箱的方法及装置。
本申请提供了一种快速卡方分箱的方法,所述方法包括:
获取特征值,并对所述特征值进行排序,得到特征值排序结果;
根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中;
通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签;
从所述哈希列表中查询最小卡方值的位置标签对应的当前节点,对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并,以得到合并后的节点,将所述后一个节点删除,并对所述当前节点的前一个节点的卡方值进行更新,得到当前双向链表,直到满足设定条件。
优选地,获取特征值,并对所述特征值进行排序,得到特征值排序结果,包括:
获取特征值,将所述特征值按照从小到大的顺序进行排序,得到特征值排序结果。
优选地,根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中,包括:
根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,根据矩阵训练模型对每个所述特征区间进行计算,得到初始卡方值,并将所述初始卡方值保存在哈希列表中。
优选地,通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签,包括:
通过初始双向链表连通相邻的所述特征区间;
将所述特征区间中的好坏样本数、卡方值和相邻区间信息转化成链表节点;
根据所述哈希列表中的所述链表节点和所述卡方值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海冰鉴信息科技有限公司,未经上海冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110521538.7/2.html,转载请声明来源钻瓜专利网。