[发明专利]一种基于AWE-OTLMS-RC-OTL的数据流分类算法在审

申请号：	201910925989.X	申请日：	2019-09-27
公开（公告）号：	CN110659695A	公开（公告）日：	2020-01-07
发明（设计）人：	赵兴昊;王松;胡燕祝	申请（专利权）人：	北京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	漂移分类准确率数据流分类基分类器构建加权机器学习领域分类概率分类误差分类效果数据分析无效数据下降现象数据流错误率分类器检测准确率整合算法剔除样本判定重现迁移输出分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及基于AWE‑OTLMS‑RC‑OTL的数据流分类算法，是一种对数据流进行分类的方法，属于数据分析与机器学习领域，其特征在于采用如下步骤：(1)计算每个基分类器分类误差；(2)计算无效数据检测及剔除函数；(3)构建基分类器；(4)加权整合输出分类概率；(5)判定概念漂移样本错误率；(6)构建新的加权分类器。本发明有效的抑制了“负迁移”导致的分类准确率下降现象，降低了在检测到概念漂移之前发生概念漂移导致分类准确率下降的程度，加快了适应重现概念速度。这说明本发明达到较好分类效果，为数据流分类提供了一种准确率较高的新方法。

技术领域

本发明涉及数据分析与机器学习领域，主要是一种对数据流进行识别分类的方法。

背景技术

目前，针对数据流分类问题，主要是利用传统的基分类器及融合多个分类器结果的算法实现。一般的处理流程包括先使用旧分类器对新数据流进行分类，如果预测正确的则保留旧分类器，相反则进行删除，并构造新的基分类器，通过不断更新分类器而达到更好的分类效果。常见的有基于邻域数据的K-means及基于Boosting的方法，但是在分类过程中，容易出现实时性低或者陷入局部有效的错误。此外，由于数据流的来源复杂，概念漂移频发，噪声敏感性高等特性，会影响到后续数据流分类的准确率。传统的数据流分类方法需要大量的标签样本训练分类模型，但是标签标记的过程耗时耗力，而且大多数分类方法都必须以获得与目标领域较为相似的源领域为先决条件才能获得较高的分类准确率。

很多关于数据流分类的算法，已经发展的相对成熟。例如，K-紧邻、TrAdaBoost以及各种基于二部图的和基于概念漂移的算法。尽管Boosting方法可以一定程度上解决源领域和目标数据不匹配的问题，但是需要调整所有数据的权重，随着数据量的增加会造成计算量的激增。MSIDA等多源迭代自适应算法基于贪婪思想选择源领域，但是需要创建额外的伪标记才能实现数据流的标签标注问题，存在严重的不合理性。OHTWC等方式在异构数据流的分类实现了较好效果，但是需要事先解决每个源领域对应的权值向量，否则无法使用对应权值向量来表示源和目标的相似度。因此，要实时准确地实现数据流分类，达到数据流分类的要求，必须要建立一种高效、准确的分类方法，有效的减少分类时间，提高分类准确率。从而适应不同领域的数据处理要求。

发明内容

针对上述现有技术中存在的问题，本发明要解决的技术问题是提供一种基于AWE-OTLMS-RC-OTL的数据流分类算法，其具体流程如图1所示。

技术方案实施步骤如下：

(1)计算每个基分类器分类误差E_rr：

把数据流分成不同的序列，通过交叉留一取样的方式训练不同基分类器的分类误差E_rr，如下公式所示：

式中，E_rr表示分类器的期望误差，A(b)表示较差取样时较差样本数目，f_b是b的密度函数，b表示分类器的边界与最优边界的差值。

(2)计算无效数据检测及剔除函数f(x,p)：

检测及剔除目标领域中所使用数据中的无效数据，大幅度提高分类器的分类效果，公式如下所示：

式中，p^v,pⁱ表示分类数据权重，且表示常规原始分类器，此处取的SVM分类器，其中S_i中的i表示样本的取样组数。

(3)构建基分类器f^T：

构建基分类器，并通过优化函数对分类器进行优化，获得最优化的基分类器，如下公式所示：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。