[发明专利]基于改进特征评估函数的贝叶斯垃圾邮件过滤方法有效
申请号: | 201510179688.9 | 申请日: | 2015-04-14 |
公开(公告)号: | CN104731772B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 王青松;魏如玉;温翠娟;张黎 | 申请(专利权)人: | 辽宁大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 沈阳杰克知识产权代理有限公司21207 | 代理人: | 罗莹 |
地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法,步骤如下1)对训练邮件集进行预处理分为邮件头部和正文部分;2)分别在两个特征集T1,T2中删除介词、代词、副词、助词,连接词以及词频低于给定的阈值p的词语;3)分别在特征项集合T1’,T2’中运用改进的特征评估函数计算出互信息值MI(tk)’;4)在训练集内,对MI(tk)’其按从大到小的顺序进行排序,选择前n个值对应的特征项用于训练集的表示;5)分类阶段运用贝叶斯分类器对待测试的样本进行垃圾邮件过滤。本发明能够高效准确的对邮件进行分类,并且过滤掉垃圾邮件。 | ||
搜索关键词: | 基于 改进 特征 评估 函数 贝叶斯 垃圾邮件 过滤 方法 | ||
【主权项】:
基于改进特征评估函数的贝叶斯垃圾邮件过滤方法,其特征在于,步骤如下:1)对训练邮件集进行预处理:将邮件分为邮件头部和正文部分两个子文本集S1,S2,在其中分别进行分词,组成两个特征项集合T1,T2;2)分别在两个特征集T1,T2中使用停用词表删除介词、代词、副词、助词、连接词以及词频低于给定的阈值p的词语,处理后的特征项集合记为T1’,T2’;3)分别在特征项集合T1’,T2’中运用改进的特征评估函数计算出互信息值MI(tk)’:3a)设特征向量集合T={tk,k=1,2,…,n},在网络文件文本库中获得训练集类别集合C={cj,i=1,2,…,r};3b)利用公式(1)计算得出修正系数λ:其中,表示特征项tk在cj里的词频数;3c)利用公式(2)计算得出MI(tk):其中,P(tk|cj)为类cj内含有tk的文本概率,P(tk)为含有tk的文本在训练集类别集合里出现的概率,P(cj)为训练集类别集合里属于类别cj的文本出现概率;3d)利用公式(3)得出tk基于训练集的互信息值MI(tk)’:其中,βi(i=1,2)代表邮件头部和正文部分两个子集位置的不同权重,β1代表邮件头部的权重,β2代表正文部分的权重,且应满足β1>β2,β1+β2=1;4)在训练集内,计算出特征项tk相应的互信息值MI(tk),并对其按从大到小的顺序进行排序,选择前n个值对应的特征项用于训练集的表示,得出特征属性和训练样本;5)运用贝叶斯分类器对测试样本进行垃圾邮件过滤,贝叶斯公式如下:其中Wi代表类别,其中W1代表垃圾邮件,W2代表正常邮件,Xj为待分类的文本,计算垃圾邮件和正常邮件在(4)中所得的训练样本中的出现频率P(Wi)及每个特征项划分对每个类别的条件概率估计P(Xj|Wi),得出P(Wi|Xj)即在特征项Xj出现的情况下邮件是垃圾邮件或者正常邮件的概率,生成贝叶斯分类器,再对测试样本即可使用生成的分类器计算垃圾邮件P(W1|Xj)和正常邮件P(W2|Xj)的概率,若有P(W1|Xj)<P(W2|Xj),则判断为正常邮件,否则作为垃圾邮件被过滤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510179688.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种译文评价方法及装置
- 下一篇:基于规则和统计模型的中文微博情感分析方法