[发明专利]一种训练流式不平衡数据的方法及设备在审

专利信息
申请号: 201410327551.9 申请日: 2014-07-10
公开(公告)号: CN105320677A 公开(公告)日: 2016-02-10
发明(设计)人: 杨海钦;胡俊杰;金国庆;吕荣聪 申请(专利权)人: 香港中文大学深圳研究院
主分类号: G06F17/30 分类号: G06F17/30;G06K9/66
代理公司: 深圳中一专利商标事务所 44237 代理人: 张全文
地址: 518000 广东省深圳市南山区虚*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 训练 不平衡 数据 方法 设备
【说明书】:

技术领域

发明涉及数据分析领域,尤其涉及到一种训练流式不平衡数据的方法及设备

背景技术

目前,现有的在线学习系统大部分没有考虑训练流式不平衡数据对于训练系统的影响,比如,现有技术中通常采用在线观察曲线下面积最大化(OnlineAUCMaximization,OAM)、单层曲线下面积(One-PassAUC,OPAUC)、朴素在线正则化最小化算法(NaiveOnlineRegMinimisationAlgorithm,NORMA)、映射感知器(Projectron)的方法学习非线性数据,有相应的局限性。

在OAM方法中,使用线性的分类模型,使用基于ROC曲线下面积的目标函数来在线训练线性分类器模型,对于线性的流式不平衡数据具有良好的分类效果。但如果流式不平衡数据具有非线性特征,则其分类效果严重下降。

在OPAUC方法中,使用线性的分类模型,使用基于ROC曲线下面积的二次目标函数来在线训练线性分类器模型,对于线性的流式不平衡数据具有良好的分类效果。但是同样对于非线性数据,效果欠佳。

在NORMA方法中,使用核函数模型,使用基于Hinge损失函数来在线训练模型,对于非线性的数据具有良好的分类效果。但是该方法处理流式不平衡数据时,容易将少数类数据错误划分为多数类数据。而少数类的数据错分代价通常比多数类数据的错分代价高,不能很好地适用于实际场景中的需求。另一方面,该方法没有提供支持向量集合的替换方法,一旦数据量增大,难以应对大数据的处理。

在Projectron方法中,使用核函数模型,使用基于铰链损失函数来在线训练模型,与NORMA同样存在不能处理流式不平衡数据的问题。

发明内容

本发明实施例提供了一种训练流式不平衡数据的方法及设备,旨在解决现有技术中无法处理流式不平衡数据以及在处理流式不平衡数据时容易忽略少数类别样本数据的准确度的问题。

第一方面,一种训练流式不平衡数据的方法,所述方法包括:

获取当前流式不平衡数据的第一类别;

比较预先存储的第二类别的流式不平衡数据的预测值和所述第一类别的当前流式不平衡数据的预测值,所述预测值用于标识预先设置的学习模型预测所述流式不平衡数据的准确度,所述第二类别与所述第一类别相反;

在所述第二类别的流式不平衡数据的预测值和所述第一类别的当前流式不平衡数据的预测值相差小于预先设置的比较阈值的情况下,通过预先设置的第一算法对目标函数进行求导,获取所述当前流式不平衡数据的权重;

根据获取的所述当前流式不平衡数据的权重和预先设置的第二算法获取所述第二类别的流式不平衡数据的权重。

结合第一方面,在第一方面的第一种可能的实现方式中,所述目标函数为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港中文大学深圳研究院,未经香港中文大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410327551.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top