[发明专利]基于改进特征评估函数的贝叶斯垃圾邮件过滤方法有效

专利信息
申请号: 201510179688.9 申请日: 2015-04-14
公开(公告)号: CN104731772B 公开(公告)日: 2017-05-24
发明(设计)人: 王青松;魏如玉;温翠娟;张黎 申请(专利权)人: 辽宁大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 沈阳杰克知识产权代理有限公司21207 代理人: 罗莹
地址: 110000 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法,步骤如下1)对训练邮件集进行预处理分为邮件头部和正文部分;2)分别在两个特征集T1,T2中删除介词、代词、副词、助词,连接词以及词频低于给定的阈值p的词语;3)分别在特征项集合T1’,T2’中运用改进的特征评估函数计算出互信息值MI(tk)’;4)在训练集内,对MI(tk)’其按从大到小的顺序进行排序,选择前n个值对应的特征项用于训练集的表示;5)分类阶段运用贝叶斯分类器对待测试的样本进行垃圾邮件过滤。本发明能够高效准确的对邮件进行分类,并且过滤掉垃圾邮件。
搜索关键词: 基于 改进 特征 评估 函数 贝叶斯 垃圾邮件 过滤 方法
【主权项】:
基于改进特征评估函数的贝叶斯垃圾邮件过滤方法,其特征在于,步骤如下:1)对训练邮件集进行预处理:将邮件分为邮件头部和正文部分两个子文本集S1,S2,在其中分别进行分词,组成两个特征项集合T1,T2;2)分别在两个特征集T1,T2中使用停用词表删除介词、代词、副词、助词、连接词以及词频低于给定的阈值p的词语,处理后的特征项集合记为T1’,T2’;3)分别在特征项集合T1’,T2’中运用改进的特征评估函数计算出互信息值MI(tk)’:3a)设特征向量集合T={tk,k=1,2,…,n},在网络文件文本库中获得训练集类别集合C={cj,i=1,2,…,r};3b)利用公式(1)计算得出修正系数λ:其中,表示特征项tk在cj里的词频数;3c)利用公式(2)计算得出MI(tk):其中,P(tk|cj)为类cj内含有tk的文本概率,P(tk)为含有tk的文本在训练集类别集合里出现的概率,P(cj)为训练集类别集合里属于类别cj的文本出现概率;3d)利用公式(3)得出tk基于训练集的互信息值MI(tk)’:其中,βi(i=1,2)代表邮件头部和正文部分两个子集位置的不同权重,β1代表邮件头部的权重,β2代表正文部分的权重,且应满足β1>β2,β1+β2=1;4)在训练集内,计算出特征项tk相应的互信息值MI(tk),并对其按从大到小的顺序进行排序,选择前n个值对应的特征项用于训练集的表示,得出特征属性和训练样本;5)运用贝叶斯分类器对测试样本进行垃圾邮件过滤,贝叶斯公式如下:其中Wi代表类别,其中W1代表垃圾邮件,W2代表正常邮件,Xj为待分类的文本,计算垃圾邮件和正常邮件在(4)中所得的训练样本中的出现频率P(Wi)及每个特征项划分对每个类别的条件概率估计P(Xj|Wi),得出P(Wi|Xj)即在特征项Xj出现的情况下邮件是垃圾邮件或者正常邮件的概率,生成贝叶斯分类器,再对测试样本即可使用生成的分类器计算垃圾邮件P(W1|Xj)和正常邮件P(W2|Xj)的概率,若有P(W1|Xj)<P(W2|Xj),则判断为正常邮件,否则作为垃圾邮件被过滤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510179688.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top