[发明专利]一种垃圾邮件的分类方法有效
申请号: | 201710979534.7 | 申请日: | 2017-10-19 |
公开(公告)号: | CN107844801B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 苏翀;刘勇 | 申请(专利权)人: | 苏翀 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/284 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种垃圾邮件的分类方法,包括1)联合文档‑特征词频率来确定ham类和spam类的特征权重;2)采用相对文档‑特征词频率差异的方法,计算特征出现在ham类与出现在spam类之间的差异程度,具体方法为取ham类和spam类特征的文档‑特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度;3)根据差异值的正负,将特征集合分成两类,负值为spam类特征,正值为ham类特征;4)采用包装模式的特征选择方法,结合Particle Swarm Optimization优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行验证并采用F1值进行迭代评价;该垃圾邮件的分类方法的分类效果要比传统的基于过滤模式的方法要好。 | ||
搜索关键词: | 一种 垃圾邮件 分类 方法 | ||
【主权项】:
一种垃圾邮件的分类方法,其特征在于:包括以下步骤:1)采用相对文档‑特征词频率差异的方法,分别计算出现在ham类和spam类中特征的权重;2)取ham类和spam类特征的文档‑特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度;3)根据差异值的正负,将特征集合分成两类,负值为spam类特征,正值为ham类特征;4)采用包装模式的特征选择方法,结合PSO优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行验证并采用F1值进行迭代评价;5)输出F1值最高的候选特征子集作为最终的特征集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏翀,未经苏翀许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710979534.7/,转载请声明来源钻瓜专利网。