[发明专利]支持向量数据描述外壳算法无效
申请号: | 200910082484.8 | 申请日: | 2009-04-21 |
公开(公告)号: | CN101526960A | 公开(公告)日: | 2009-09-09 |
发明(设计)人: | 王鹏 | 申请(专利权)人: | 王鹏;毛国君 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京正理专利代理有限公司 | 代理人: | 张占榜 |
地址: | 100025北京市朝阳区十*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 向量 数据 描述 外壳 算法 | ||
技术领域
本发明涉及一种数据挖掘技术,特别是指一种支持向量数据描述外壳算 法。是在分布式环境下的数据流分析挖掘技术以及支持向量机技术,着重解 决分布式环境下模型整合集成的问题。
背景技术
目前,传统的数据分析方式是基于批量式的数据收集,存储于某种介质, 然后再分析的模式进行的。随着信息社会的迅猛发展,海量数据不再是也不 能够完全存储下来,通过不止一次地读取的方式进行分析。这种以时间先后 次序到达的,速率不确定的,连续不断的,大量的,潜在无限长的一组数据 构成的流称为数据流。来自不同数据源的多个数据流组成了多数据流。在计 算机网络环境下,多数据流通过网络传输介质输入到分布式系统中,称为分 布式数据流。
这类分布式数据流在自然社会生活中广泛地存在。例如,银行的交易数 据是一种分布式环境下的数据流模型。银行的结构是典型的组织结构关系: 总行、分行、支行以及交易设备(如ATM机,POS机)等,如图1所示。在 各个省市设有总行,每个城市下辖一些城镇,分别设有分行。(图中为了简 明,没有绘出分支下属的机构。)分支机构为客户提供了用于服务的终端: ATM机等。此处,数据流是持续不断产生并且收集的,流向自底向上的。终 端设备收集的逐级汇集到支行、分行和总行,并且还可以及进一步汇集整合。 数据分析员可以分析不同级别的数据。
又如,反垃圾邮件的体系结构,如图2所示。由于电子邮件网络的分布 式结构,垃圾邮件发送者可以在伪装成普通的客户在不同的地点,通过不同 的邮件服务器,发送垃圾邮件。反垃圾邮件软件过滤器需要部署在邮件服务 器上,筛选垃圾邮件。这样的结构也同样适用于其他网络安全问题(如用于 防范恶意行为的入侵检测等)以及分布式计算问题:分布在世界各地的许多 数据分析节点的协作式挖掘,可以用来发现天文、地震、气象等模型。
数据流最大的特点是潜在无限性:在某个相对较长的时间里(例如几年, 十几年),数据流将持续不断地输入,而且密度比较大,速度比较快。对于 这种数据,尤其是分布式数据流,批量存储而后分析的方式已经不能胜任, 其主要缺点是:存储空间不可估计;不能够实时分析处理。数据流的特性决 定了对应的分析算法必须是增量式的(或者称为在线的online)。而且, 在分布式环境下,采用将分布式数据流集中于一点进行分析处理的方法是不 现实的,因此要求分析提取出来的模型之间是可以增量式的整合集成的。
支持向量机(SVM)算法是上世纪九十年代正式提出的一种基于统计学 习理论的模式识别算法。作为优秀的算法,它有模型简单、泛化能力强、先 验知识少等诸多优点,同时具有成熟的理论背景以及广泛的应用背景。它不 需要先验的数据分布,通过平衡模型复杂度以及对部分数据的依赖性,尽量 简化模型的复杂度,以获得最优的泛化预测能力。它最终通过求解二次规划 问题获得最优可行解;同时,在确定的数据环境下,求得一组支持向量。这 组支持向量的数量远远小于输入数据,并且能够准确描述模型,达到了高度 概括。然而,经典的支持向量机是批量式的,即输入数据需要同时提供给系 统。
现行的针对单数据流的增量式支持向量机算法,维护一个数据窗口,用 于缓存最近的一部分的数据,根据特定规则不断更新数据窗口中的数据,包 括新数据的加入以及无用数据的删除等。同时,不断更新系统模型,主要的 途径有分块,错误驱动,以及计算过程分析等。
分块式方法是把输入数据流按照某种规则划分为块。每当收集到足够多 的数据组成一个块以后,使用批量式支持向量机算法进行分析,获得该块的 模型。然后将该块的模型和以前分析获得的模型合并起来,再次使用批量式 支持向量机算法进行分析,获得整体模型。这种方法的主要缺点是需要累积 足够输入数据组成块,并且对每块都要进行两次计算,计算量增大,反应时 间将会减慢。
错误驱动式方法是维持模型,并统计该模型发生的错误。当错误统计达 到特定条件以后,对当前数据集使用批量式支持向量机算法进行分析,获得 新模型。这种方法的主要缺点是积累错误期间模型工作性能会很差,不能够 实时分析处理每个数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王鹏;毛国君,未经王鹏;毛国君许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910082484.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置