[发明专利]一种在线高维不平衡流数据的学习方法在审
申请号: | 201810732705.0 | 申请日: | 2018-07-05 |
公开(公告)号: | CN109102077A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 胡冀;颜成钢;彭冬亮;吴建锋 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06N99/00 | 分类号: | G06N99/00;G06K9/62 |
代理公司: | 浙江永鼎律师事务所 33233 | 代理人: | 雷仕荣 |
地址: | 310018*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 流数据 截断 特征权重 在线学习 高维 分类算法 分类问题 输入参数 样本输入 在线分类 初始化 贡献量 更新 算法 学习 分类 优化 | ||
本发明公开了一种在线高维不平衡流数据的学习方法,包括以下步骤:步骤S1:输入参数并初始化在线学习模型;步骤S2:将当前样本输入在线学习模型;步骤S3:利用在线不平衡流数据分类算法更新权值;步骤S4:对权值中特征权重进行截断并重新更新权值。采用本发明技术方案,通过截断算法将贡献量极小的特征权重进行截断,从而进一步优化了模型,即解决了传统在线分类方法无解解决的不平衡流数据分类问题,同时提高了分类精度。
技术领域
本发明涉及模式识别、机器学习技术领域,尤其涉及一种在线高维不平衡流数据的学习方法。
背景技术
随着信息技术的迅猛发展,尤其是互联网行业的广泛应用,越来越多的领域出现了对海量高速到达的数据实时处理需求。各个行业产生的业务数据大多数情况下可以看作动态到达的流式数据,与传统数据相比,这类数据具有动态性、无序性、无限性、突发性和体积大等特点。如何从海量的数据中挖掘有用的特征,并对每一个样本进行实时分类变得尤为重要。
传统的批处理式的学习方法一方面存在学习时间长、学习效率低的问题;另一方面难以针对增量数据有效地更新模型,导致难以有效地使模型适应数据中发生的概念迁移和概念演化问题。传统的批处理模式的机器学习算法在当前大数据环境下变得越来越力不从心,而在线学习通过流式计算框架,在内存中直接对数据实时运算,为大数据的学习和分类提供了有力的工具。
最早的在线学习算法可以追溯到20世纪50年代著名的感知器算法(Perceptron);近年来,研究人员提出了在线核学习算法、最小收缩和选择算子算法(LSASSO)、在线梯度下降法(OGD)、在线被动进取算法(PA)、信心加权算法(CW)、压缩感知算法(CS)等。然而上述算法依然具有以下缺陷:
1.现有算法在进行在线学习时并未考虑数据的不平衡性;而现实中有很多类别不均衡问题,它是常见的,并且也是合理的,符合人们期望的;比如,在欺诈交易识别中,属于欺诈交易的应该是很少部分,即绝大部分交易是正常的,只有极少部分的交易属于欺诈交易。
2.对高纬度流数据的分类精度仍需提高。
故,针对现有技术的缺陷,实有必要提出一种技术方案以解决现有技术存在的技术问题。
发明内容
鉴于现有技术的方法很难满足目前对于不平衡流数据在线分类,本发明提供一种在线高维不平衡流数据的学习方法,通过截断算法将贡献量极小的特征权重进行截断,从而进一步优化了模型,提高了对高维不平衡流数据的分类精度。同时通过置信加权对在线流数据进行在线特征选择,并通过代价敏感性技术为不平衡数据设置不同权重,从而实现最小代价敏感损失的特征,即解决了传统在线分类方法无解解决的不平衡流数据分类问题,同时提高了分类精度。
为了解决现有技术存在的技术问题,本发明的技术方案如下:
一种在线高维不平衡流数据的学习方法,包括以下步骤:
步骤S1:输入参数并初始化在线学习模型;
步骤S2:将当前样本输入在线学习模型;
步骤S3:利用在线不平衡流数据分类算法更新权值;
步骤S4:对权值中特征权重进行截断并重新更新权值;
其中,所述步骤S4进一步包括:
设定截断步长K,每K步执行特征权重截断算法对权值进行更新;
其中,特征权重截断算法为:
其中,wj为权值中的向量特征;a为偏置;θ为阈值。
作为优选的技术方案,所述步骤S3进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810732705.0/2.html,转载请声明来源钻瓜专利网。