[发明专利]用于在大规模数据分类问题中训练SVM分类器的方法无效

申请号：	200710045242.2	申请日：	2007-08-24
公开（公告）号：	CN101127029A	公开（公告）日：	2008-02-20
发明（设计）人：	李斌;池明旻;薛向阳	申请（专利权）人：	复旦大学
主分类号：	G06F15/18	分类号：	G06F15/18;G06F17/30;G06K9/62
代理公司：	上海正旦专利代理有限公司	代理人：	陆飞;盛志范
地址：	20043***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于大规模数据分类问题训练 svm 方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于统计机器学习技术领域，具体涉及一种分类器的训练方法，主要解决大规模数据分类问题中快速有效地训练分类器的问题。

技术背景

随着计算机网络技术与存储设备的迅速发展，各应用领域的信息化程度不断提高，例如政府、企业、学校都在使用大规模数据库来管理与存储信息化数据。然而，除了简单地对数据进行管理与存储操作，人们更希望从这些海量的数据库中挖掘出一些有意义的规则或知识，例如门户网站希望自动对文档或图片进行分类。然而，在实际应用中，数据库中数据量通常是非常庞大的，其数量级通常会达到太字节(TB)以上，如果把所有样本都作为训练数据来训练分类器，其时空复杂性将无比巨大。

对于大规模数据的分类问题，国内外研究者已经做过大量工作，他们从不同角度提出了许多解决方案，比如：分解技术[16，12，17，3，13]通过将原有大规模分类器学习问题分解为较小的子问题进行迭代学习，每次只对一个工作子集进行训练，并利用该次训练的结果指导选择下一个工作子集用于训练；增量技术[2，8，14]每次仅读入一个样本，对分类器进行增量式更新；并行技术[4，9]一般使用集成方法，先把总体样本平分为多个样本子集，并把得到的样本子集作为独立的任务交给不同的处理器进行训练，最后把各处理器得到的结果通过某种技术合并为一个总的分类器；近似技术[7，15]则使用近似的计算公式降低原有算法的复杂性。以上这些技术需要对所有样本都进行训练，其复杂度难以降低。

还有一类技术通过在原数据集中选取代表点训练分类器，其思想在于使用一定的方式，在原有大规模数据集中选取小部分的代表性样本训练分类器，以达到降低训练样本数量的目的。较典型的方法包括：“主动学习”[18]通过启发式地选取代表点；CB-SVM[22]通过层次化聚类选取类中心作为代表点；[19]选取聚类超球表面的样本作为代表点；CVM[20]使用“核心集”作为代表点；[1，23]则选取聚类中心作为代表点。由于代表点的选取技术大多基于不同的假设，并不适合所有的应用场景，并且会丢失原数据集的统计信息。

经过大量观察以及实际应用，我们发现现有的针对大规模数据分类问题的分类器训练方法都在不同程度上存在以下一些局限性：(1)在训练阶段所需要的时间复杂性和空间复杂性极高；(2)丢失部分原数据集的统计信息；(3)基于较强的假设条件与前提条件；(4)对于硬件设备与资源的要求相当高；(5)算法实现非常复杂。

以上分析说明，如果用大规模训练样本进行训练，其时间复杂性必然会居高不下，即使通过各种优化与近似手段后，依然无法奏效；如果使用代表点技术，即基于一定的假设条件在原大规模数据中抽取一部分代表样本进行训练，又必定会丢失部分统计信息，影响分类器的性能。

如果有一种方法既能使样本数量减少，又能使原有的统计信息尽量不丢失，则可以达到在保持与现有分类器相似的分类准确率的条件下，显著降低训练阶段时空复杂性——本发明就是通过事先把训练样本聚类成高斯模型作为分类器训练的基本信息单元，从而达到既减少样本数量又能保持原有统计信息的目的；同时，本发明设计出的一种兼容的核函数使训练阶段得到的支撑高斯模型可以直接用于测试阶段，线性组合成最终的分类器。

参考文献

[1]Boley，D.and Cao，D.，Training Support Vector Machine Using Adaptive Clustering，InProc.of the SIAM Int’l Conf.on Data Mining，2004.

[2]Cauwenberghs，G.and Poggio，T.，Incremental and Decremental Support Vector MachineLearning，Advanced Neural Information Processing Systems，2000，Cambridge，MA：MITPress.

[3]Collobert，R.and Bengio，S.，SVMTorch：Support Vector Machines for Large-scaleRegression Problems，J.of Machine Learning Research，2001，vol.1，pp.143-160.

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710045242.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F15-00 通用数字计算机
G06F15-02 .通过键盘输入的手动操作，以及应用机内程序的计算，例如，袖珍计算器
G06F15-04 .在引入被处理的数据的同时，进行编制程序的，例如，在同一记录载体上
G06F15-08 .应用插接板编制程序的
G06F15-16 .两个或多个数字计算机的组合，其中每台至少具有一个运算器、一个程序器及一个寄存器，例如，用于数个程序的同时处理
G06F15-18 .其中，根据计算机本身在一个完整的运行期间内所取得的经验来改变程序的；学习机器

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于在大规模数据分类问题中训练SVM分类器的方法无效

专利文献下载