[发明专利]一种邮件分类方法、装置、设备及计算机可读存储介质在审
申请号: | 201910893789.0 | 申请日: | 2019-09-20 |
公开(公告)号: | CN110610213A | 公开(公告)日: | 2019-12-24 |
发明(设计)人: | 张莉;郑晓晗;周伟达;王邦军 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 侯珊 |
地址: | 215104 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 线性判别函数 邮件数据 支持向量机分类算法 判别函数 训练集 范数 计算机可读存储介质 垃圾邮件过滤 邮件分类装置 泛化性能 分类规则 分类结果 分类效率 技术效果 接收邮件 邮件分类 预先确定 准确度 贡献度 分类 减小 分析 | ||
1.一种邮件分类方法,其特征在于,包括:
接收待分类的邮件数据;
利用预先确定的线性判别函数对所述邮件数据进行处理,得到判别函数值;其中,所述线性判别函数中的判别参数为:预先通过基于L1范数的孪生支持向量机分类算法对训练集进行分析获得;所述训练数据包括不同类别的邮件训练数据;
利用预先设定的分类规则及所述判别函数值,对所述邮件数据进行分类。
2.根据权利要求1所述的邮件分类方法,其特征在于,所述线性判别函数中的判别参数生成方法,包括:
获取训练集;利用所述训练集及预设条件,确定所述线性判别函数中的判别参数;
所述预设条件包括:
s.t.-(X2w1+e2b1)+ξ2≥e2,ξ2≥0
s.t.(X1w2+e1b2)+ξ1≥e1,ξ1≥0
其中,w1为所述判别参数中的第一权重向量,w2为所述判别参数中的第二权重向量,b1为所述判别参数中的第一函数偏差系数,b2为所述判别参数中的第二函数偏差系数,ξ1为第一松弛变量,ξ2为第二松弛变量,X1为所述训练集中非垃圾邮件数据的特征矩阵,X2为所述训练集中垃圾邮件数据的特征矩阵,e1为全1的第一向量,e2为全1的第二向量,||.||1为L1范数,C1为预先确定的第一辅助变量,C2为预先确定的第二辅助变量,C3为预先确定的第三辅助变量,C4为预先确定的第四辅助变量。
3.根据权利要求2所述的邮件分类方法,其特征在于,所述利用预先确定的线性判别函数对所述邮件数据进行处理,得到判别函数值,包括:
利用第一线性判别函数及所述邮件数据x,得到第一判别函数值f1(x);
利用第二线性判别函数及所述邮件数据x,得到第二判别函数值f2(x);
其中,所述第一线性判别函数为:f1(x)=xTw1+b1,所述第二线性判别函数为:f2(x)=xTw2+b2。
4.根据权利要求3所述的邮件分类方法,其特征在于,所述利用预先设定的分类规则及所述判别函数值,对所述邮件数据进行分类,包括:
利用预先设定的分类规则、所述第一判别函数值f1(x)、所述第二判别函数值f2(x),得到所述邮件数据的分类结果;
所述分类规则为:
其中,若分类结果为1,则判定所述邮件为非垃圾邮件,若分类结果为-1,则判定所述邮件为垃圾邮件。
5.一种邮件分类装置,其特征在于,包括:
数据接收模块,用于接收待分类的邮件数据;
数据处理模块,用于利用预先确定的线性判别函数对所述邮件数据进行处理,得到判别函数值;其中,所述线性判别函数中的判别参数为:预先通过基于L1范数的孪生支持向量机分类算法对训练集进行分析获得;所述训练数据包括不同类别的邮件训练数据;
数据分类装置,用于利用预先设定的分类规则及所述判别函数值,对所述邮件数据进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910893789.0/1.html,转载请声明来源钻瓜专利网。