[发明专利]基于最小二乘支持向量机的文本分类方法无效
申请号: | 200810012887.0 | 申请日: | 2008-08-20 |
公开(公告)号: | CN101350017A | 公开(公告)日: | 2009-01-21 |
发明(设计)人: | 盛秀英 | 申请(专利权)人: | 盛秀英 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连科技专利代理有限责任公司 | 代理人: | 徐军 |
地址: | 116024辽宁省大*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 最小 支持 向量 文本 分类 方法 | ||
一、技术领域:
本发明涉及文本分类方法,特别是基于最小二乘支持向量机的文本分类方法。
二、背景技术:
随着Internet的广泛应用及WWW技术的快速发展,文本分类技术成为WEB挖掘的一个重要分支。目前常用的文本分类方法主要有:基于模糊聚类的中文文本自动分类方法、朴素贝叶斯(Naive Bayes)方法、KNN方法、神经网络算法和支持向量机(SVM)经典文本分类算法。这些方法虽能够进行比较准确的文本分类,但在分类时间和召回率方面已不能适应当今Internet发展的速度。
三、发明内容:
本发明的目的是克服上述不足问题,提供一种基于最小二乘支持向量机的文本分类方法。该方法利用最小二乘法与传统支持向量机的方法的相结合,具有分类时间短,召回率高,内存需求少,学习速度快的特点。
本发明为实现上述目的所采用的技术方案是:一种基于最小二乘支持向量机的文本分类方法,将进行过文本预处理后的文本信息,利用最小二乘方法来拟合用传统的支持向量机方法所得到的分类超平面,从而得到最优的超平面,实现文本分类。
所述在文本预处理过程中,所进行的特征抽取采用属性约简方法,提取相对重要的属性。
所述使用传统的支持向量机时采用二次函数Y=KX2作为事先给定的非线性映射。
本发明分类方法的特点:利用最小二乘法来拟合由传统的支持向量机得到的超平面,该发明的优点是可以在短时间内达到高效的分类效果和召回率,特别适用于有多链接的Internet网页及大规模搜索引擎。
四、具体实施方式:
下面结合具体实施方式对本发明作进一步详细说明,但不限于具体实施例。
按照下列方法对文本进行分类,首先对文本进行预处理,预处理的过程采用属性约简技术,从众多的属性中挑选出对于文本分类影响因素大的属性。并将文本信息做成向量形式,向量中的每个元素对应着一个属性值。然后利用支持向量机方法得到分类的超平面,最后利用最小二乘法拟合得到的最优超平面,实现文本分类过程。
具体实现步骤如下:
1.设训练样本集为(xi,yi),i=1,2……,n,n为训练样本的个数,xi为表示文本信息的向量,yi∈{1,-1}是输入样本xi的类标记(期望输出)。
2.通过事先给定的非线性影射Y=KX2把输入向量X映射到一个高维特征空间Z,在这个空间中构造最优分类超平面,将此问题归结为一个带约束的二次规划问题:
min||ω‖2/2
s.t.yi(ωxi+b)≥1,i=1,2,…l。
3.利用最小二乘法来判断最优分类超平面。若样本集线性可分,d维空间中线性判别函数g(x)=ω·x+b,分类面方程为ω·x+b=0。利用最小二乘法来判断最优的超平面,用mathematic软件的findfit函数判断最优分类超平面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛秀英,未经盛秀英许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810012887.0/2.html,转载请声明来源钻瓜专利网。