[发明专利]一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统有效
申请号: | 202111499775.4 | 申请日: | 2021-12-09 |
公开(公告)号: | CN114186628B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 刘凯;张韶峰;冯鑫 | 申请(专利权)人: | 百融云创科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/12 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 刘铁生;孟阿妮 |
地址: | 100000 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 nsga ii 遗传 算法 最优 数据处理 方法 系统 | ||
本发明提供了一种基于NSGA‑II遗传算法的最优分箱数据处理方法及系统,其中,该方法包括:对数据样本进行预处理,获得第一数据样本;按照预分箱规则对第一数据样本进行预分箱,获得n个预分箱;根据n个预分箱,定义决策变量矩阵,包含一个大小为n的下三角矩阵,其中;获得决策变量矩阵的IV值;根据决策变量矩阵和IV值定义目标函数向量;设定分箱的约束条件;根据分箱的约束条件和目标函数向量,使用NSGA‑II遗传算法对预分箱后的第一数据样本进行多目标优化求解,获得多个最优解;根据多个最优解,获得最优分割点;根据最优分割点,对预分箱后的第一数据样本进行分箱。
技术领域
本发明涉及数据分箱算法相关技术领域,具体涉及一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统。
背景技术
分箱算法是特征工程的一种,主要是把数据按照不一样的规则分到不同的箱子里,可以理解为一种将连续型数据变为离散数据的建模方式。分箱可以减少数据中噪声的影响,提升模型的鲁棒性,如在金融评分系统中,对数据分箱可以避免极端值对建模的影响;分箱算法将连续变量离散化也方便特征衍生,可以直接把特征做内积提升特征维度。
分箱算法有多种方法,较为简易的有等距分箱和等频分箱,现有技术中较为常见的有k-means分箱和决策树分箱等。
在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
上述现有技术中常见的分箱方法不能设置分箱的约束条件,例如每箱的样本量、箱数的上下界等,不能满足分箱后的WoE(Weight of evidence)单调性,且分箱效果不佳或分箱效率较低。
发明内容
本申请实施例通过提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统,用于针对解决现有技术中常见分箱算法或多或少存在一定缺点,例如不能设置分箱的约束条件,例如每箱的样本量、箱数的上下界等,不能满足分箱后的WoE单调性,且分箱效果不佳或分箱效率较低,不易获得最佳分割结果的技术问题。
鉴于上述问题,本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统。
本申请实施例的第一个方面,提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法,所述方法包括:对数据样本进行预处理,获得第一数据样本;按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;根据所述n个预分箱,定义决策变量矩阵,包含一个大小为n的下三角矩阵,其中;获得所述决策变量矩阵的IV值;根据所述决策变量矩阵和所述IV值定义目标函数向量;设定分箱的约束条件;根据所述分箱的约束条件和所述目标函数向量,使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;根据所述多个最优解,获得最优分割点;根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱。
本申请实施例的第二个方面,提供了一种基于NSGA-II遗传算法的最优分箱数据处理系统,其中,所述系统包括:
第一获得单元,所述第一获得单元用于对数据样本进行预处理,获得第一数据样本;第一处理单元,所述第一处理单元用于按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;第二处理单元,所述第二处理单元用于根据所述n个预分箱,定义决策变量矩阵,包含一个大小为n的下三角矩阵,其中;第二获得单元,所述第二获得单元用于获得所述决策变量矩阵的IV值;第三处理单元,所述第三处理单元用于根据所述决策变量矩阵和所述IV值定义目标函数向量;第四处理单元,所述第四处理单元用于设定分箱的约束条件;第五处理单元,所述第五处理单元用于根据所述分箱的约束条件和所述目标函数向量,使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;第三获得单元,所述第三获得单元用于根据所述多个最优解,获得最优分割点;第六处理单元,所述第六处理单元用于根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百融云创科技股份有限公司,未经百融云创科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111499775.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电化学装置和电子装置
- 下一篇:一种基于Cordic算法的瞬时测频方法