[发明专利]一种垃圾邮件的分类方法有效
申请号: | 201710979534.7 | 申请日: | 2017-10-19 |
公开(公告)号: | CN107844801B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 苏翀;刘勇 | 申请(专利权)人: | 苏翀 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/284 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾邮件 分类 方法 | ||
本发明公开一种垃圾邮件的分类方法,包括1)联合文档‑特征词频率来确定ham类和spam类的特征权重;2)采用相对文档‑特征词频率差异的方法,计算特征出现在ham类与出现在spam类之间的差异程度,具体方法为取ham类和spam类特征的文档‑特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度;3)根据差异值的正负,将特征集合分成两类,负值为spam类特征,正值为ham类特征;4)采用包装模式的特征选择方法,结合Particle Swarm Optimization优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行验证并采用F1值进行迭代评价;该垃圾邮件的分类方法的分类效果要比传统的基于过滤模式的方法要好。
技术领域
本发明涉及网络安全领域,具体涉及一种垃圾邮件的分类方法。
背景技术
如今的网络时代,即使是在地理上相隔很远的人们之间联系也已经非常方便,电子邮件是一种低成本而又高效的联系方法,人们在享受这便利的信息传递方法的同时,也受到了垃圾邮件的骚扰,而且也对网络用户和服务提供商带来了严重的影响,因此如何对垃圾邮件进行有效的分类成为一个比较重要的挑战。
发明内容
为了解决上述的技术问题本发明提供一种的垃圾邮件的分类方法。
为解决上述问题,本发明采用如下技术方案:
一种垃圾邮件的分类方法,包括以下步骤:
1)联合文档-特征词频率来确定ham类和spam类的特征权重;
2)采用相对文档-特征词频率差异的方法,计算特征出现在ham类与出现在spam类之间的差异程度,具体方法为取ham类和spam类特征的文档-特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度;
3)根据差异值的正负,将特征集合分成两类,负值为spam类特征,正值为ham类特征;
4)采用包装模式的特征选择方法,结合PSO优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行验证并采用F1值进行迭代评价;
5)输出F1值最高的候选特征子集作为最终的特征集合。
作为优选,所述验证为十字交叉验证。
作为优选,所述十字交叉验证为基于分类器的十字交叉验证。
作为优选,所述分类器包含有NB分类器和SVM分类器。
作为优选,所述步骤4)还包含有步骤:每次迭代的开始前,根据前一轮迭代产生的F1值,挑选出F1值最低的粒子并将其移除出粒子群,另外产生新的变异粒子加入到粒子群。
本发明的有益效果为:首先使用相对文档-特征词频率差异的方法,分别计算出现在ham类和spam类中特征的权重,取ham类和spam类特征的文档-特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度,根据差异值的正或负,将特征集合分成两类,负值为spam类特征,正值为ham类特征。为了增强特征之间差异的组合范围,获取更好的分类性能而引入了包装模式的特征选择方法,结合PSO优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行十字交叉验证,选取最好的候选特征子集。效果要比传统的基于过滤模式的方法好。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
一种垃圾邮件的分类方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏翀,未经苏翀许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710979534.7/2.html,转载请声明来源钻瓜专利网。