[发明专利]用于在大规模数据分类问题中训练SVM分类器的方法无效
申请号: | 200710045242.2 | 申请日: | 2007-08-24 |
公开(公告)号: | CN101127029A | 公开(公告)日: | 2008-02-20 |
发明(设计)人: | 李斌;池明旻;薛向阳 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F15/18 | 分类号: | G06F15/18;G06F17/30;G06K9/62 |
代理公司: | 上海正旦专利代理有限公司 | 代理人: | 陆飞;盛志范 |
地址: | 20043*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 大规模 数据 分类 问题 训练 svm 方法 | ||
技术领域
本发明属于统计机器学习技术领域,具体涉及一种分类器的训练方法,主要解决大规模数据分类问题中快速有效地训练分类器的问题。
技术背景
随着计算机网络技术与存储设备的迅速发展,各应用领域的信息化程度不断提高,例如政府、企业、学校都在使用大规模数据库来管理与存储信息化数据。然而,除了简单地对数据进行管理与存储操作,人们更希望从这些海量的数据库中挖掘出一些有意义的规则或知识,例如门户网站希望自动对文档或图片进行分类。然而,在实际应用中,数据库中数据量通常是非常庞大的,其数量级通常会达到太字节(TB)以上,如果把所有样本都作为训练数据来训练分类器,其时空复杂性将无比巨大。
对于大规模数据的分类问题,国内外研究者已经做过大量工作,他们从不同角度提出了许多解决方案,比如:分解技术[16,12,17,3,13]通过将原有大规模分类器学习问题分解为较小的子问题进行迭代学习,每次只对一个工作子集进行训练,并利用该次训练的结果指导选择下一个工作子集用于训练;增量技术[2,8,14]每次仅读入一个样本,对分类器进行增量式更新;并行技术[4,9]一般使用集成方法,先把总体样本平分为多个样本子集,并把得到的样本子集作为独立的任务交给不同的处理器进行训练,最后把各处理器得到的结果通过某种技术合并为一个总的分类器;近似技术[7,15]则使用近似的计算公式降低原有算法的复杂性。以上这些技术需要对所有样本都进行训练,其复杂度难以降低。
还有一类技术通过在原数据集中选取代表点训练分类器,其思想在于使用一定的方式,在原有大规模数据集中选取小部分的代表性样本训练分类器,以达到降低训练样本数量的目的。较典型的方法包括:“主动学习”[18]通过启发式地选取代表点;CB-SVM[22]通过层次化聚类选取类中心作为代表点;[19]选取聚类超球表面的样本作为代表点;CVM[20]使用“核心集”作为代表点;[1,23]则选取聚类中心作为代表点。由于代表点的选取技术大多基于不同的假设,并不适合所有的应用场景,并且会丢失原数据集的统计信息。
经过大量观察以及实际应用,我们发现现有的针对大规模数据分类问题的分类器训练方法都在不同程度上存在以下一些局限性:(1)在训练阶段所需要的时间复杂性和空间复杂性极高;(2)丢失部分原数据集的统计信息;(3)基于较强的假设条件与前提条件;(4)对于硬件设备与资源的要求相当高;(5)算法实现非常复杂。
以上分析说明,如果用大规模训练样本进行训练,其时间复杂性必然会居高不下,即使通过各种优化与近似手段后,依然无法奏效;如果使用代表点技术,即基于一定的假设条件在原大规模数据中抽取一部分代表样本进行训练,又必定会丢失部分统计信息,影响分类器的性能。
如果有一种方法既能使样本数量减少,又能使原有的统计信息尽量不丢失,则可以达到在保持与现有分类器相似的分类准确率的条件下,显著降低训练阶段时空复杂性——本发明就是通过事先把训练样本聚类成高斯模型作为分类器训练的基本信息单元,从而达到既减少样本数量又能保持原有统计信息的目的;同时,本发明设计出的一种兼容的核函数使训练阶段得到的支撑高斯模型可以直接用于测试阶段,线性组合成最终的分类器。
参考文献
[1]Boley,D.and Cao,D.,Training Support Vector Machine Using Adaptive Clustering,InProc.of the SIAM Int’l Conf.on Data Mining,2004.
[2]Cauwenberghs,G.and Poggio,T.,Incremental and Decremental Support Vector MachineLearning,Advanced Neural Information Processing Systems,2000,Cambridge,MA:MITPress.
[3]Collobert,R.and Bengio,S.,SVMTorch:Support Vector Machines for Large-scaleRegression Problems,J.of Machine Learning Research,2001,vol.1,pp.143-160.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710045242.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置