[发明专利]一种面向变分布数据流的在线分类方法有效

申请号：	202011455187.6	申请日：	2020-12-10
公开（公告）号：	CN112528111B	公开（公告）日：	2023-10-20
发明（设计）人：	尹宏鹏;周瀚;廖城霖;钟锦涛	申请（专利权）人：	重庆大学
主分类号：	G06F16/906	分类号：	G06F16/906
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	赵荣之
地址：	400044 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向分布数据流在线分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种面向变分布数据流的在线分类方法，属于计算机技术领域。该方法包括以下步骤：步骤一：离线训练阶段；步骤二：在线训练阶段；步骤三：在线测试阶段；现有的面向数据流的在线分类算法没有考虑到实际动态数据流环境中分布变化现象。而本发明的公开的在线分类方法，可以自适应学习数据流分布的变化，以应对不断演变的动态环境，具有更重要的实用价值。

技术领域

本发明属于计算机技术领域，涉及一种面向变分布数据流的在线分类方法。

背景技术

现阶段，各领域的数据以快速、实时、连续的形式不断产生，形成数据流。数据流中往往蕴含着丰富的知识。研究面向数据流的数据挖掘方法，从中发现隐藏的、有价值的信息，可为科学评判提供决策支持，进而产生更大的社会价值。

分类作为数据挖掘的核心任务之一，受到了学者广泛关注。传统的分类算法，例如支持向量机(Support Vector Machine,SVM)、K近邻分类器(K-nearest-neighbor,KNN)、神经网络(Neural Networks,NN)等，只能处理静态数据，不适用于现有的数据流环境。有鉴于此，部分学者也提出不少在线分类算法，例如在线支持向量机(Online SVM)、在线被动攻击算法(Online Passive Aggressive,PA)等。这些方法通过增量式学习的方式，以应对源源不断到来的数据，然而这些方法往往假设数据是独立同分布的。事实上，在真实的环境中，数据分布会随着时间而发生改变，即具有动态变分布的特性。因此，现有的分类技术应具有自适应学习新数据的能力，以适应不断变化的、不确定的动态环境，从而从数据流中挖掘出有价值的知识。

发明内容

有鉴于此，本发明的目的在于提供一种面向变分布数据流的在线分类方法。本方法自适应学习数据流分布变化，以应对不断演变的动态环境，为决策支持提供重要的依据。

为达到上述目的，本发明提供如下技术方案：

一种面向变分布数据流的在线分类方法，该方法包括以下步骤：

步骤一：离线训练阶段；利用历史数据流的标签数据训练一个离线分类器，记为Γ_h；

步骤二：在线训练阶段；若有新的训练标签数据批次，则进入在线训练阶段，调整新数据分布并学习在线分类器，记为Γ_n；

步骤三：在线测试阶段；若有无标签测试数据到来，则综合离线分类器Γ_h与在线分类器Γ_n形成集成分类器Γ预测该数据标签。

可选的，所述步骤一具体为：

S1.1：将历史流数据X_h切割为两段，记为旧历史数据与新历史数据；

S1.2：调整旧历史数据与新历史数据分布，使其条件概率分布一致，其数学表示如下：

其中，表示旧历史数据中属于k类样本的平均值，表示新历史数据中属于k类样本的平均值；对上述方程求解得:

利用分布变换矩阵A调整新历史数据分布使其与旧历史数据分布一致，即