[发明专利]对信息饱和度不均衡数据的处理方法有效
申请号: | 201911284739.9 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111079283B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 王张琦;韩晗;刘嵩 | 申请(专利权)人: | 四川新网银行股份有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F18/2415;G06F18/21;G06F18/22;G06N20/00 |
代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 濮云杉 |
地址: | 610094 四川省成都市成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 饱和度 均衡 数据 处理 方法 | ||
1.对信息饱和度不均衡数据的处理方法,其特征包括:
阶段一:样本加权信息熵计算:
A.将需要建模的样本导入处理设备的存储器和内存中保存;
B.通过处理器提取存储器和内存中保存的变量并进行处理,对连续型的变量采用卡方检验的分箱处理,并得到相应的分组;对离散型的变量,每一个离散型的变量的实例是一个分箱,同时,每一个离散型的变量的实例为一个分组;
C.根据分箱结果,通过处理器计算变量的信息价值指标;根据每一个变量中的实例在该变量中出现的概率Pij,通过处理器计算该变量的信息熵;
D.通过处理器对每个样本在各个变量上根据所述信息价值指标的加权求和,计算得到样本的加权信息熵;
阶段二:样本分层最优模型匹配:
E.将多个常用的机器学习算法模型分别作为备选模型,形成模型集合保存在处理设备的存储器中,用于样本分层模型进行匹配选择;
F.处理设备中的处理器从存储器中提取并根据得到的加权信息熵和所述的模型集合,对信息饱和度不同的样本进行分组,并对分组完成的样本进行最优模型匹配;
G.所述处理器对分组后的样本通过计数器进行迭代拆分,每完成一次迭代拆分后得到新划分组的最优模型匹配结果,如果本次得到的全局模型值>上次迭代得到的全局模型值,则继续进行迭代拆分,否则结束迭代拆分,处理器输出本次样本分组的结果和模型匹配结果,并在存储器中保存;
步骤C中,处理器计算变量的信息价值指标包括:先计算用于衡量正样本和负样本分布差异的证据权重woe:其中,yi是第i个变量第j个在步骤B所述的分组中的正样本数量;ni为第i个变量第j个在步骤B所述的分组中的负样本数量;yT为第i个变量的所有正样本数;nT为第i个变量的所有负样本数量;pyi为正样本占比,pni为负样本占比;然后处理器再根据得到的各证据权重woei计算变量的信息价值指标其中,woei为第i个分组的证据权重woe值;
步骤C中,通过计算每一个变量中的实例在该变量中出现的概率Pij,其中,Dij为第i个变量的第j类实例的个数;Ni为第i个变量的实例总个数;
步骤C中,处理器通过计算该变量的信息熵,其中,H(Xi)为第i个变量的信息熵,j为第i个变量的第j类实例,n为第i个变量总共有n类分箱实例;
步骤F包括:
F1.处理器随机选择一个样本,将信息熵大于该样本信息熵的其他样本作为一组,将信息熵小于该样本信息熵的其他样本作为另一组;
F2.检查样本个数是否满足建模要求:对步骤F1得到的分组,如果有其中一组的样本个数小于所有特征变量个数的50倍,则处理器重新随机选择样本进行分组,直到两个组的样本个数均大于所有特征变量个数的50倍;
F3.对分组完成的样本进行优化模型匹配。
2.如权利要求1所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤B中对连续型的变量进行分箱处理包括:
B1.通过输入设备输入卡方阈值X,并将卡方阈值X保存在存储器和内存中;
B2.处理器对连续型的变量进行排序,每一个变量值为一个分箱区间;
B3.通过处理器计算各相邻分箱区间的卡方值其中,Aij为第i个分箱区间中第j类实例的个数,Eij为Aij的期望评率,其中,N为总样本数,Ni为第i个分箱区间的样本数,Cj为第j类样本在全样本中的比例;
B4.将得到的所有卡方值中最小的两个相邻分箱区间进行合并;
B5.重复步骤B1至B4,直到任意两个相邻分箱的卡方值大于卡方阈值X。
3.如权利要求1所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤D中,通过计算得到样本的加权信息熵,其中,Hweight(Xk)为样本的加权信息熵,H(Xk)为第k个变量的信息熵,m为变量个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911284739.9/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置