[发明专利]一种基于AWE-OTLMS-RC-OTL的数据流分类算法在审
申请号: | 201910925989.X | 申请日: | 2019-09-27 |
公开(公告)号: | CN110659695A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 赵兴昊;王松;胡燕祝 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 漂移 分类准确率 数据流分类 基分类器 构建 加权 机器学习领域 分类概率 分类误差 分类效果 数据分析 无效数据 下降现象 数据流 错误率 分类器 检测 准确率 整合 算法 剔除 样本 判定 重现 迁移 输出 分类 | ||
1.本发明一种基于AWE-OTLMS-RC-OTL的数据流分类算法,其特征在于:(1)计算每个基分类器分类误差;(2)计算无效数据检测及剔除函数;(3)构建基分类器;(4)加权整合输出分类概率;(5)判定概念漂移样本错误率;(6)构建新的加权分类器;具体包括以下六个步骤:
步骤一:计算每个基分类器分类误差Err:
把数据流分成不同的序列,通过交叉留一取样的方式训练不同基分类器的分类误差Err,如下公式所示:
式中,Err表示分类器的期望误差,A(b)表示较差取样时较差样本数目,fb是b的密度函数,b表示分类器的边界与最优边界的差值;
步骤二:计算无效数据检测及剔除函数f(x,p):
剔除目标领域中使用数据中的无效数据,大幅度提高分类器的分类效果,公式如下所示:
式中,pv,pi表示分类数据权重,且表示常规原始分类器,此处取的SVM分类器,其中Si中的i表示样本的取样组数;
步骤三:构建基分类器fT:
构建基分类器,并通过优化函数对分类器进行优化,获得最优化的基分类器,如下公式所示:
式中,{(xi,yi)|X×Y|i=1,...,t}表示数据集向量,αi表示数据量的一个调节参数,H表示定义在核函数k(xi,x)上的希尔伯特空间的重构,C表示一个交换参数,l(fT(xt),yt)表示铰链损耗函数;
步骤四:加权整合输出分类概率
获得基分类器分类误差后,通过加权平均的方式对基分类器整合获得集成分类器分类输出,如下公式所示:
式中,表示第c类中第y个实例的分类概率,ωi表示第i个分类器的权重,这里假设跟第分类误差成反比;
步骤五:判定概念漂移样本错误率e:
预先给定一个阈值FThresh,当FThresh<e的时候认为窗口疑似发生概念漂移现象,这个时候则构建新的集成分类器,公式如下所示:
式中,Nerr表示当前分类器对前半段窗口样本的分类错误数量,p为当前窗口长度;
步骤六:构建新的加权分类器f:
当数据流发生概念漂移现象时,通过计算最近的样本与存储的各历史分类器之间的领域相似度,以选择最适合对后续样本进行学习的源分类器,如下公式所示:
式中,α1,α2表示分类器权重系数,新建分类器是初始化为ws,wt为基分类器加权为集成分类器f时的权重系数,新建分类器是wt=0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910925989.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于机器学习的柑橘果蒂的检测方法
- 下一篇:用于检测行车安全的方法及装置