[发明专利]一种数据流分类的概念漂移检测方法无效
申请号: | 201010184726.7 | 申请日: | 2010-05-27 |
公开(公告)号: | CN101827002A | 公开(公告)日: | 2010-09-08 |
发明(设计)人: | 文益民 | 申请(专利权)人: | 文益民 |
主分类号: | H04L12/26 | 分类号: | H04L12/26 |
代理公司: | 湖南兆弘专利事务所 43008 | 代理人: | 赵洪;周长清 |
地址: | 410208 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据流 分类 概念 漂移 检测 方法 | ||
1.一种数据流分类的概念漂移检测方法,其特征在于步骤为:
①数据流分块:设定数据块的规模d,按照数据流中数据到达的先后顺序,每采集到d 个数据,就给出这d个数据的类别并以该d个数据所组成的数据块为一个训练集,将所采集 到的数据块依顺序记为Si,其中0≤i且i的最大值由当前训练样本的总数量决定,第一个数 据块记为S0;在每个Si上训练一个分类器hi,以Si作为测试集由hi给出测试结果TRi,存储Si、 hi和TRi;
②滑动窗口调整:设定滑动窗口中分类器hi的数量K,当滑动窗口中分类器hi的数量少 于K时,最新训练的分类器hi自动加入滑动窗口;当滑动窗口中分类器hi的数量等于K时, 对滑动窗口中的分类器hi进行更新;
③概念漂移检测:设当前滑动窗口中分类器hi的数量为K0,K0≤K,当需要对测试数 据X进行概念漂移检测时分两步进行:
3.1、将测试数据X输入滑动窗口中的所有分类器hi,按顺序计算由分类器给 出的分类结果和分类置信度;所述步骤3.1中,设当前分类器为hj,其中0≤j<K0,y为X 的真正类别,Tj(X)为分类器hj对测试数据X的分类置信度,分类置信度的计算方法如下式 (1)所示,
上式(1)中的Tp为测试数据X在Sj中的m个近邻中被hj判断为ωj类而且又真正属于ωj类的数据的数量,而Fp为测试数据X在Sj中的m个近邻中被hj判断为ωj类而又不属于ωj类 的数据的数量;
3.2、自动选择滑动窗口中分类置信度较高的分类器进行多数投票,给出对测试数据X的 类别判断,完成对概念漂移的检测;所述步骤3.2的具体流程为:首先将 按从小到大排序,用数组A[K0]存储调整后的各分类置信度的下标, 仍用表示排序后的值;计算Tshift[j]=Tj+1(X)-Tj(X),0≤j<K0-1; 从小到大扫描数组Tshift,判断值的最大跳跃点,设为k,这样滑动窗口中下标为 {A[k+1],A[k+2],...,A[K0-1]}的分类器为分类置信度较高的分类器,使用这些分类器进行多 数投票,最后给出对测试数据X的类别判断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于文益民,未经文益民许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010184726.7/1.html,转载请声明来源钻瓜专利网。