[发明专利]融合Boost模型的非平衡数据自适应采样方法在审

专利信息
申请号: 201710218019.7 申请日: 2017-04-05
公开(公告)号: CN107133639A 公开(公告)日: 2017-09-05
发明(设计)人: 宋彬;徐慧囝;陈思佳;张艳 申请(专利权)人: 芜湖宣投文化传播有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 安徽信拓律师事务所34117 代理人: 娄尔玉
地址: 241000 安徽省芜湖*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种将模型认知数据和加权特征空间数据分布相结从而优化非平衡数据采样性能的方法,主要解决现有采样技术的盲目性、对现有特征信息的破坏以及在高维度数据上的不适用性。其实现模块为(1)算法初始化(2)基于Boost模型的数据认知与数据类型定义(3)基于加权特征空间的数据分布关系与数据类型定义(4)Boost定义数据集和加权空间定义数据集的融合(5)融合数据集中特征类型关联的数据合成方法与冗余数据清除方法(6)算法迭代判断模块。本发明能够结合模型认知数据信息和特征空间数据分布信息,在平衡数据同时去除冗余数据,同时保护了数据原有特征结构,用于大数据领域中对不平衡数据的处理。
搜索关键词: 融合 boost 模型 平衡 数据 自适应 采样 方法
【主权项】:
一种融合Boost模型的非平衡数据自适应采样方法,其特征在于,其具体步骤如下:(1)算法初始化,即t=0情况(1a)Boost模型初始化,即依据数据规模设定boost参数;(1b)特征权重初始化为等权重;(1c)数据特征类别初始化F,分为连续型特征和离散型特征;(1d)自定义各类别数据目标占比;(2)第t次迭代,训练boost树模型,然后获取特征权重与当前模型的F‑score评分,同时取得模型定义的pure、danger、noise数据集合;(2a)采用boost树模型,用预定义参数以及当前数据进行模型的训练;(2b)完成模型训练后,采用weighted F‑score对模型进行评分,得到当前模型的相应评分,同时获取当前模型对特征重要性的评分,最终结合第t‑1次迭代的特征权重,完成特征权重的更新;(2c)利用第t‑1次和第t次模型的评分差,进行算法退出与否的判断,具体为:若模型的评分有较大下降则退出算法;(2d)利用模型对当前数据集进行预测,分别取得danger数据集、pure数据集和noise数据集,分别定义如下:pure数据集:判别正确且判断概率高于预定义阈值的样本点集合;danger数据集:判定概率小于预定义阈值的样本点集合;noise数据集:判错且判定概率大于预定义阈值的样本点集合;(3)计算样本点在加权特征空间的位置关系,并依据距离位置关系定义danger、pure、noise数据集合;(3a)利用(2)中更新得到的特征权重,计算数据集在此加权特征空间中的距离;主要方法为:对于连续型特征计算加权欧氏距离,对于离散型特征采用函数f进行计算,其中f定义为两个样本点特征值于同类样本对应特征中数值占比之差;(3b)使用(3a)中的距离度量方式,获取样本点之间的相应位置关系,并基于此位置关系定义danger数据集、pure数据集和noise数据集,分别为:pure数据集:样本点的m个相邻样本点均与其同类;danger数据集:样本点的m个相邻样本点有与其不同类;noise数据集:样本点的m个相邻样本点小于与其不同类;(4)将(2)和(3)中分别得到的danger数据集、pure数据集和noise数据集进行融合,形成待删除样本点集合和用于生成新样例的样本点集合;(4a)采用集合运算的方式将(2)和(3)中得到的三类数据集分别进行融合,得到pure融合集、danger融合集以及noise融合集,分别定义如下:pure融合集:样本点同属于模型定义pure集和加权特征空间定义pure集;danger融合集:样本点不属于模型定义danger集,而属于加权特征空间定义danger集;noise融合集:样本点属于模型定义noise集或者属于加权特征空间定义noise集;(4b)完成上述融合方式后,利用融合数据集合生成待删除数据集以及待生成新样本点的数据集,分别定义如下:pure删除集:属于pure融合集,且标签属于大类的样本点;noise删除集:属于noise融合集,且标签属于大类的样本点;repeat删除集:于加权特征空间中重叠的所有样本点;pure创建集:属于pure融合集且类标签属于小类的样本点;danger创建集:属于danger融合集,且标签属于小类的样本点;(4c)由上述四个数据集出发,进行大类冗余数据的删除以及新数据的合成;根据当前情况,从现有数据集中删除包含在repeat数据集中的所有样本点,并依据一定规则从现有数据集中删除pure删除集和noise删除集中存在的样本点;同时,由pure创建集和danger创建集中创建新的样本点,具体办法为:对于创建集中每一个样本点,取得其加权特征空间的近邻,利用此样本点和其各个近邻进行新样本点的生成;生成新样本点时,对不同类型特征做不同的处理,对于数值型特征直接取两样本点的均值,对于目录型特征依据同类样本当前特征值出现概率选择两样本点特征值其一;(4d)为防止新生成样本点过于密集导致之后数据整体性能的下降,在4(c)中使用两个样本点创建新样本时,计算二者在加权特征空间中的距离;待新样本点集合生成完毕后,按照每个样本点对应的合成距离进行排序,选取对应距离最大的前一半新合成数据作为创建数据集加入到原数据集中;(5)判断是否结束算法迭代,即判定各个类别是否满足预期样本数量,方法为:对于每一个类别计数其对应样本数量,若一定程度上满足预期数量,则将此类加入已符合要求类集合中,所有类均加入到此集合中时,则停止迭代,退出算法;或者当所有类中样本当前数量稳定基本不再变化,则停止迭代,退出算法,否则执行(2),跳转到第t+1次迭代过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芜湖宣投文化传播有限公司,未经芜湖宣投文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710218019.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top