[发明专利]一种混合傅里叶核函数支持向量机文本分类方法有效
申请号: | 201810160983.3 | 申请日: | 2018-02-27 |
公开(公告)号: | CN108536730B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 于舒娟;张昀;朱文峰;何伟;董茜茜;金海红 | 申请(专利权)人: | 南京邮电大学;南京邮电大学南通研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 226000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种混合傅里叶核函数支持向量机文本分类方法。所述方法根据支持向量机中各种核函数不同的学习、泛化能力,进而通过线性加权混合多项式与傅里叶核函数,组成新的混合傅里叶核函数;由于核函数的学习能力以及泛化能力很大程度上影响支持向量机分类效果,因此把多项式核函数与傅里叶核函数相结合。本发明方法继承了傅里叶核函数的高学习能力与多项式核函数的泛化能力,提高了支持向量机分类器的性能;并且与单核中的多项式核函数、高斯核函数、傅里叶核函数以及混合核函数中的多项式与高斯核组合核函数比较,混合傅里叶核函数具有更好的泛化、学习能力,文本分类效果最佳。 | ||
搜索关键词: | 一种 混合 傅里叶核 函数 支持 向量 文本 分类 方法 | ||
【主权项】:
1.一种混合傅里叶核函数支持向量机文本分类方法,其特征在于,所述方法包含如下步骤:步骤A,训练支持向量机,以得到αi和b,根据拉格朗日乘法以及KKT条件,简化支持向量机求解过程,求解转化为:约束条件:其中C表示松弛变量;式中,表示支持向量最大间隔等价转换结果;表示求表达式最小值;表示求表达式最大值;表示对表达式求和;xi,xj∈{x1,x2,...,xn}表示第i,j个训练集文档向量化值,其中,n表示训练集文档数量,1≤i,j≤n;yi,yj∈{y1,y2,...,yn}表示第i,j个训练集文档所属的类别,取值1或‑1;αi,αj∈α={α1,α2,...,αn}表示xi,xj对应的拉格朗日乘子;表示法向量;wT表示w转置;||w||2表示w欧几里得范数的平方;b表示超平面在坐标轴上的截距;K(xi,xj)表示核函数;步骤B,构造混合傅里叶核函数,以引入支持向量机中,混合傅里叶核函数为:式中,0≤η≤1;Kpoly=(xi×xj+c)d表示多项式核函数,其中c取值为1,d取值2或3;表示傅里叶核函数,其中cos(xi‑xj)表示xi‑xj的余弦值,0<q<1;步骤C,将混合傅里叶核函数引入支持向量机:步骤D,文档向量化:式中,λkj表示文档de中特征词tk的权值,作为向量化结果;tk∈{t1,t2,...,tm}表示特征词tk,其中m表示总文档中特征词总数量,1≤i≤m;de∈{d1,d2,...,dN}表示总文档中第e个文档,1≤e≤N;tf(tk,de)表示特征词tk在文档de中出现的次数;Nk表示包含特征词tk文档数量;N表示总文档数;β是经验值,取值为0.1;步骤E,总文档通过交叉验证方法选取训练集和测试集,最终决策函数:式中,f(x's)表示支持向量机模型分类结果;x′s∈{x′1,x′2,...,x′z}表示向量化后第s个测试集文档,其中z表示测试集文档数量1≤s≤z;K(x's,xi)表示提出的混合傅里叶核函数;αi和b表示训练支持向量机得到的参数;sgn(·)表示符号函数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学;南京邮电大学南通研究院有限公司,未经南京邮电大学;南京邮电大学南通研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810160983.3/,转载请声明来源钻瓜专利网。