[发明专利]一种训练流式不平衡数据的方法及设备在审
申请号: | 201410327551.9 | 申请日: | 2014-07-10 |
公开(公告)号: | CN105320677A | 公开(公告)日: | 2016-02-10 |
发明(设计)人: | 杨海钦;胡俊杰;金国庆;吕荣聪 | 申请(专利权)人: | 香港中文大学深圳研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/66 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518000 广东省深圳市南山区虚*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 不平衡 数据 方法 设备 | ||
技术领域
本发明涉及数据分析领域,尤其涉及到一种训练流式不平衡数据的方法及设备
背景技术
目前,现有的在线学习系统大部分没有考虑训练流式不平衡数据对于训练系统的影响,比如,现有技术中通常采用在线观察曲线下面积最大化(OnlineAUCMaximization,OAM)、单层曲线下面积(One-PassAUC,OPAUC)、朴素在线正则化最小化算法(NaiveOnlineRegMinimisationAlgorithm,NORMA)、映射感知器(Projectron)的方法学习非线性数据,有相应的局限性。
在OAM方法中,使用线性的分类模型,使用基于ROC曲线下面积的目标函数来在线训练线性分类器模型,对于线性的流式不平衡数据具有良好的分类效果。但如果流式不平衡数据具有非线性特征,则其分类效果严重下降。
在OPAUC方法中,使用线性的分类模型,使用基于ROC曲线下面积的二次目标函数来在线训练线性分类器模型,对于线性的流式不平衡数据具有良好的分类效果。但是同样对于非线性数据,效果欠佳。
在NORMA方法中,使用核函数模型,使用基于Hinge损失函数来在线训练模型,对于非线性的数据具有良好的分类效果。但是该方法处理流式不平衡数据时,容易将少数类数据错误划分为多数类数据。而少数类的数据错分代价通常比多数类数据的错分代价高,不能很好地适用于实际场景中的需求。另一方面,该方法没有提供支持向量集合的替换方法,一旦数据量增大,难以应对大数据的处理。
在Projectron方法中,使用核函数模型,使用基于铰链损失函数来在线训练模型,与NORMA同样存在不能处理流式不平衡数据的问题。
发明内容
本发明实施例提供了一种训练流式不平衡数据的方法及设备,旨在解决现有技术中无法处理流式不平衡数据以及在处理流式不平衡数据时容易忽略少数类别样本数据的准确度的问题。
第一方面,一种训练流式不平衡数据的方法,所述方法包括:
获取当前流式不平衡数据的第一类别;
比较预先存储的第二类别的流式不平衡数据的预测值和所述第一类别的当前流式不平衡数据的预测值,所述预测值用于标识预先设置的学习模型预测所述流式不平衡数据的准确度,所述第二类别与所述第一类别相反;
在所述第二类别的流式不平衡数据的预测值和所述第一类别的当前流式不平衡数据的预测值相差小于预先设置的比较阈值的情况下,通过预先设置的第一算法对目标函数进行求导,获取所述当前流式不平衡数据的权重;
根据获取的所述当前流式不平衡数据的权重和预先设置的第二算法获取所述第二类别的流式不平衡数据的权重。
结合第一方面,在第一方面的第一种可能的实现方式中,所述目标函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港中文大学深圳研究院,未经香港中文大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410327551.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:隐藏字幕的数据交换方法
- 下一篇:数据转换系统及其控制方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置