[发明专利]对特征序列进行分箱的方法、装置及计算机可读存储介质在审
申请号: | 202110711207.X | 申请日: | 2021-06-25 |
公开(公告)号: | CN113313206A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 顾凌云;谢旻旗;段湾;李国隆;张涛;潘峻 | 申请(专利权)人: | 上海冰鉴信息科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 钱学宇 |
地址: | 200000 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 序列 进行 方法 装置 计算机 可读 存储 介质 | ||
1.一种对特征序列进行分箱的方法,其特征在于,应用于计算机设备,所述方法包括:
获取数据集,其中,所述数据集包括待分箱特征序列及所述待分箱特征序列中各个特征的标签;
将所述待分箱特征序列中的特征进行排序,并确定出分隔排序后待分箱特征序列的最佳划分点序列;
根据所述最佳划分点序列将所述数据集划分为多个数据子集;
将相邻的两个数据子集进行合并处理,得到所述待分箱特征序列的分箱结果。
2.如权利要求1所述的对特征序列进行分箱的方法,其特征在于,所述将所述待分箱特征序列中的特征进行排序,并确定出分隔排序后待分箱特征序列的最佳划分点序列的步骤,包括:
对所述待分箱特征序列中的各个特征进行排序,并对序列中重复的特征进行去重处理;
计算去重处理后的待分箱特征序列中相邻两个特征的特征平均值,根据计算得到的特征平均值得到以待分箱特征平均值序列;
以所述待分箱特征平均值序列中的特征平均值为分隔点对所述待分箱特征平均值序列进行分割,得到以所述待分箱特征平均值序列中的特征平均值作为最佳划分点的所述最佳划分点序列。
3.如权利要求2所述的对特征序列进行分箱的方法,其特征在于,所述以所述待分箱特征平均值序列中的特征平均值为分隔点对所述待分箱特征平均值序列进行分割,得到以所述待分箱特征平均值序列中的特征平均值作为最佳划分点的所述最佳划分点序列的步骤,包括:
以所述待分箱特征平均值序列中的任意一特征平均值作为分割点将所述待分箱特征平均值序列分割为第一数据子集及第二数据子集;
若所述第一数据子集中的样本的数量与所述第二数据子集中的样本的数量均大于第一预设数量,则计算对应分割点分割所述数据集的基尼指数值;
根据所述分割点对应的基尼指数值,确定基尼指数值最小的分割点作为最佳划分点;
将所述第一数据子集及所述第二数据子集作为所述数据集重复上述步骤,直到被分割的数据集中的样本的数量均小于第二预设数量,得到所述最佳划分点序列。
4.如权利要求3所述的对特征序列进行分箱的方法,其特征在于,所述将相邻的两个数据子集进行合并处理,得到所述待分箱特征序列的分箱结果的步骤,包括:
计算相邻的两个数据子集的卡方值;
将卡方值最小的相邻两个数据子集进行合并处理;
重回上述步骤,直到所述合并处理后的所有数据子集的卡方值均大于预设卡方值阈值;
将所述卡方值均大于预设卡方值阈值的数据子集作为所述待分箱特征序列的分箱结果。
5.如权利要求4所述的对特征序列进行分箱的方法,其特征在于,所述基尼指数的计算公式如下:
其中,K为分类数,pk为样本属于第K类的概率;
所述相邻的两个数据子集的卡方值的计算公式如下:
其中,相邻两个数据子集的样本数量n=a+b+c+d,a和c分别为相邻的两个数据子集中第一类别样本的数量,b和d分别为相邻的两个数据子集中第二类别样本的数量,每个样本包括一个待分箱特征及对应的特征标签。
6.一种对特征序列进行分箱的装置,其特征在于,应用于计算机设备,所述装置包括:
获取模块,用于获取数据集,其中,所述数据集包括待分箱特征序列及所述待分箱特征序列中各个特征的标签;
排序与确定模块,用于将所述待分箱特征序列中的特征进行排序,并确定出分隔排序后待分箱特征序列的最佳划分点序列;
划分模块,用于根据所述最佳划分点序列将所述数据集划分为多个数据子集;
处理模块,用于将相邻的两个数据子集进行合并处理,得到所述待分箱特征序列的分箱结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海冰鉴信息科技有限公司,未经上海冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110711207.X/1.html,转载请声明来源钻瓜专利网。