[发明专利]支持向量数据描述外壳算法无效

专利信息
申请号: 200910082484.8 申请日: 2009-04-21
公开(公告)号: CN101526960A 公开(公告)日: 2009-09-09
发明(设计)人: 王鹏 申请(专利权)人: 王鹏;毛国君
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京正理专利代理有限公司 代理人: 张占榜
地址: 100025北京市朝阳区十*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 支持 向量 数据 描述 外壳 算法
【说明书】:

技术领域

发明涉及一种数据挖掘技术,特别是指一种支持向量数据描述外壳算 法。是在分布式环境下的数据流分析挖掘技术以及支持向量机技术,着重解 决分布式环境下模型整合集成的问题。

背景技术

目前,传统的数据分析方式是基于批量式的数据收集,存储于某种介质, 然后再分析的模式进行的。随着信息社会的迅猛发展,海量数据不再是也不 能够完全存储下来,通过不止一次地读取的方式进行分析。这种以时间先后 次序到达的,速率不确定的,连续不断的,大量的,潜在无限长的一组数据 构成的流称为数据流。来自不同数据源的多个数据流组成了多数据流。在计 算机网络环境下,多数据流通过网络传输介质输入到分布式系统中,称为分 布式数据流。

这类分布式数据流在自然社会生活中广泛地存在。例如,银行的交易数 据是一种分布式环境下的数据流模型。银行的结构是典型的组织结构关系: 总行、分行、支行以及交易设备(如ATM机,POS机)等,如图1所示。在 各个省市设有总行,每个城市下辖一些城镇,分别设有分行。(图中为了简 明,没有绘出分支下属的机构。)分支机构为客户提供了用于服务的终端: ATM机等。此处,数据流是持续不断产生并且收集的,流向自底向上的。终 端设备收集的逐级汇集到支行、分行和总行,并且还可以及进一步汇集整合。 数据分析员可以分析不同级别的数据。

又如,反垃圾邮件的体系结构,如图2所示。由于电子邮件网络的分布 式结构,垃圾邮件发送者可以在伪装成普通的客户在不同的地点,通过不同 的邮件服务器,发送垃圾邮件。反垃圾邮件软件过滤器需要部署在邮件服务 器上,筛选垃圾邮件。这样的结构也同样适用于其他网络安全问题(如用于 防范恶意行为的入侵检测等)以及分布式计算问题:分布在世界各地的许多 数据分析节点的协作式挖掘,可以用来发现天文、地震、气象等模型。

数据流最大的特点是潜在无限性:在某个相对较长的时间里(例如几年, 十几年),数据流将持续不断地输入,而且密度比较大,速度比较快。对于 这种数据,尤其是分布式数据流,批量存储而后分析的方式已经不能胜任, 其主要缺点是:存储空间不可估计;不能够实时分析处理。数据流的特性决 定了对应的分析算法必须是增量式的(或者称为在线的online)。而且, 在分布式环境下,采用将分布式数据流集中于一点进行分析处理的方法是不 现实的,因此要求分析提取出来的模型之间是可以增量式的整合集成的。

支持向量机(SVM)算法是上世纪九十年代正式提出的一种基于统计学 习理论的模式识别算法。作为优秀的算法,它有模型简单、泛化能力强、先 验知识少等诸多优点,同时具有成熟的理论背景以及广泛的应用背景。它不 需要先验的数据分布,通过平衡模型复杂度以及对部分数据的依赖性,尽量 简化模型的复杂度,以获得最优的泛化预测能力。它最终通过求解二次规划 问题获得最优可行解;同时,在确定的数据环境下,求得一组支持向量。这 组支持向量的数量远远小于输入数据,并且能够准确描述模型,达到了高度 概括。然而,经典的支持向量机是批量式的,即输入数据需要同时提供给系 统。

现行的针对单数据流的增量式支持向量机算法,维护一个数据窗口,用 于缓存最近的一部分的数据,根据特定规则不断更新数据窗口中的数据,包 括新数据的加入以及无用数据的删除等。同时,不断更新系统模型,主要的 途径有分块,错误驱动,以及计算过程分析等。

分块式方法是把输入数据流按照某种规则划分为块。每当收集到足够多 的数据组成一个块以后,使用批量式支持向量机算法进行分析,获得该块的 模型。然后将该块的模型和以前分析获得的模型合并起来,再次使用批量式 支持向量机算法进行分析,获得整体模型。这种方法的主要缺点是需要累积 足够输入数据组成块,并且对每块都要进行两次计算,计算量增大,反应时 间将会减慢。

错误驱动式方法是维持模型,并统计该模型发生的错误。当错误统计达 到特定条件以后,对当前数据集使用批量式支持向量机算法进行分析,获得 新模型。这种方法的主要缺点是积累错误期间模型工作性能会很差,不能够 实时分析处理每个数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王鹏;毛国君,未经王鹏;毛国君许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910082484.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top