[发明专利]一种数据流分类的概念漂移检测方法无效
申请号: | 201010184726.7 | 申请日: | 2010-05-27 |
公开(公告)号: | CN101827002A | 公开(公告)日: | 2010-09-08 |
发明(设计)人: | 文益民 | 申请(专利权)人: | 文益民 |
主分类号: | H04L12/26 | 分类号: | H04L12/26 |
代理公司: | 湖南兆弘专利事务所 43008 | 代理人: | 赵洪;周长清 |
地址: | 410208 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据流 分类 概念 漂移 检测 方法 | ||
技术领域
本发明主要涉及到智能信息处理技术领域,特指一种概念漂移的检测方法,适用于网络 入侵检测、用户购物预测、流水线上产品分类等数据流分类问题。
背景技术
在社会实践中,有一类问题是数据所包含的概念随时间而变化,也就是概念产生漂移。 自动化生产线上,相近原因的问题产品会连续出现,然后由于原因的变化而导致问题产品的 特征也随之发生变化;商务活动中,顾客的购买兴趣随时间而变化;网络安全中,网络的访 问模式随用户不同而变化。这些问题的共同特点是:不断产生的数据形成一个流;数据流中 的新概念何时产生无法预测;数据流包含的概念的数量不确定。概念漂移检测就是从已有分 类器中选择合适的分类器对新的测试数据进行类别判断,以实现对该测试数据更准确的类别 判断。
数据流分类问题已经引起众多学者的关注。Schlimmer首次研究了数据流分类问题,提出 了STAGGER算法(Incremental learning from noisy data[J]Machine Learning,1986, 1(3):317-354一种噪声数据的增量学习算法[J].机器学习,1986,1(3):317-354)。Widmer、 Salganicoff、Harries和Domingos等分别提出了FLORA、PECS、SPLICE和VFDT。王涛等 改进VFDT后提出了fVFDT。Wang等的研究表明:以上算法所学习到的模型只反映了部分 最新数据包含的概念,这通常会导致较大误差(Mining concept-drifting data streams using ensemble classifiers[C]//Proceeding of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.USA,Washington,2003:226-23 5使用集成分类器挖掘 有概念漂移的数据流[C]//第9届知识发现与数据挖掘国际会议论文集,美国,华盛顿,2003: 226-235)。因此,国内外学者开始尝试利用集成学习策略来处理数据流分类的概念漂移问题。 Street等提出了SEA算法(A streaming ensemble algorithm for large-scale classification[C]//Proceeding of the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.USA,San Francisco,2001:377-382一种用于解决大规模分类问题 的集成分类器流算法[C]//第七届知识发现与数据挖掘国际会议会议论文集。美国,圣弗兰西 斯科,2001:377-382),该算法首先根据一个评分标准淘汰滑动窗口中旧的分类器而保持分类 器总数不变的方法实现对概念漂移的学习,然后采用多数投票算法实现对概念漂移检测。 Wang等则使用带权多数投票算法实现对概念漂移检测,各分类器的权值分别与其对最新近采 集的数据集的错误率成反比(Mining concept-drifting data streams using ensemble classifiers[C]//Proceeding of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.USA,Washington,2003:226-23 5 使用集成分类器挖掘有概念漂 移的数据流[C]//第9届知识发现与数据挖掘国际会议论文集,美国,华盛顿,2003:226-235)。 Kolter等提出了动态带权多数投票算法(Dynamic weighted majority:a new ensemble method for tracking concept drift[C]//Proceedings of the 3th IEEE Conference on Data Mining.USA,Los Alamitos,2003:123-130 一种跟踪概念漂移的动态带权多数投票法[C]//第3届数据挖掘国际 会议.美国,Los Alamitos,2003:123-130)。该算法根据最新近采集到的一个样本对滑动窗口中 的分类器的权值进行修改,同时还使用这个样本对滑动窗口中的分类器进行增量学习或训练 一个新的分类器,以提高算法对概念漂移的检测速度。孙岳等提出了一种基于多分类器的概 念漂移挖掘算法(基于多分类器的数据流中的概念漂移挖掘[J]。自动化学报,2008,34(1): 93-96)。相对于SEA算法,Wang、Kolter和孙岳的算法的共同特点是根据权值淘汰滑动窗口 中的分类器,同时利用权值实现对概念漂移的检测,而权值的计算都是根据最新近采集的样 本。因此,以上全部算法的有效实现都有个前提——事先需要设置好滑动窗口的大小。然而, 在实际问题中很难做到这一点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于文益民,未经文益民许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010184726.7/2.html,转载请声明来源钻瓜专利网。