[发明专利]对信息饱和度不均衡数据的处理方法有效

专利信息
申请号: 201911284739.9 申请日: 2019-12-13
公开(公告)号: CN111079283B 公开(公告)日: 2023-06-09
发明(设计)人: 王张琦;韩晗;刘嵩 申请(专利权)人: 四川新网银行股份有限公司
主分类号: G06F30/27 分类号: G06F30/27;G06F18/2415;G06F18/21;G06F18/22;G06N20/00
代理公司: 成都智言知识产权代理有限公司 51282 代理人: 濮云杉
地址: 610094 四川省成都市成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息 饱和度 均衡 数据 处理 方法
【权利要求书】:

1.对信息饱和度不均衡数据的处理方法,其特征包括:

阶段一:样本加权信息熵计算:

A.将需要建模的样本导入处理设备的存储器和内存中保存;

B.通过处理器提取存储器和内存中保存的变量并进行处理,对连续型的变量采用卡方检验的分箱处理,并得到相应的分组;对离散型的变量,每一个离散型的变量的实例是一个分箱,同时,每一个离散型的变量的实例为一个分组;

C.根据分箱结果,通过处理器计算变量的信息价值指标;根据每一个变量中的实例在该变量中出现的概率Pij,通过处理器计算该变量的信息熵;

D.通过处理器对每个样本在各个变量上根据所述信息价值指标的加权求和,计算得到样本的加权信息熵;

阶段二:样本分层最优模型匹配:

E.将多个常用的机器学习算法模型分别作为备选模型,形成模型集合保存在处理设备的存储器中,用于样本分层模型进行匹配选择;

F.处理设备中的处理器从存储器中提取并根据得到的加权信息熵和所述的模型集合,对信息饱和度不同的样本进行分组,并对分组完成的样本进行最优模型匹配;

G.所述处理器对分组后的样本通过计数器进行迭代拆分,每完成一次迭代拆分后得到新划分组的最优模型匹配结果,如果本次得到的全局模型值>上次迭代得到的全局模型值,则继续进行迭代拆分,否则结束迭代拆分,处理器输出本次样本分组的结果和模型匹配结果,并在存储器中保存;

步骤C中,处理器计算变量的信息价值指标包括:先计算用于衡量正样本和负样本分布差异的证据权重woe:其中,yi是第i个变量第j个在步骤B所述的分组中的正样本数量;ni为第i个变量第j个在步骤B所述的分组中的负样本数量;yT为第i个变量的所有正样本数;nT为第i个变量的所有负样本数量;pyi为正样本占比,pni为负样本占比;然后处理器再根据得到的各证据权重woei计算变量的信息价值指标其中,woei为第i个分组的证据权重woe值;

步骤C中,通过计算每一个变量中的实例在该变量中出现的概率Pij,其中,Dij为第i个变量的第j类实例的个数;Ni为第i个变量的实例总个数;

步骤C中,处理器通过计算该变量的信息熵,其中,H(Xi)为第i个变量的信息熵,j为第i个变量的第j类实例,n为第i个变量总共有n类分箱实例;

步骤F包括:

F1.处理器随机选择一个样本,将信息熵大于该样本信息熵的其他样本作为一组,将信息熵小于该样本信息熵的其他样本作为另一组;

F2.检查样本个数是否满足建模要求:对步骤F1得到的分组,如果有其中一组的样本个数小于所有特征变量个数的50倍,则处理器重新随机选择样本进行分组,直到两个组的样本个数均大于所有特征变量个数的50倍;

F3.对分组完成的样本进行优化模型匹配。

2.如权利要求1所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤B中对连续型的变量进行分箱处理包括:

B1.通过输入设备输入卡方阈值X,并将卡方阈值X保存在存储器和内存中;

B2.处理器对连续型的变量进行排序,每一个变量值为一个分箱区间;

B3.通过处理器计算各相邻分箱区间的卡方值其中,Aij为第i个分箱区间中第j类实例的个数,Eij为Aij的期望评率,其中,N为总样本数,Ni为第i个分箱区间的样本数,Cj为第j类样本在全样本中的比例;

B4.将得到的所有卡方值中最小的两个相邻分箱区间进行合并;

B5.重复步骤B1至B4,直到任意两个相邻分箱的卡方值大于卡方阈值X。

3.如权利要求1所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤D中,通过计算得到样本的加权信息熵,其中,Hweight(Xk)为样本的加权信息熵,H(Xk)为第k个变量的信息熵,m为变量个数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911284739.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top