[发明专利]基于改进特征评估函数的贝叶斯垃圾邮件过滤方法有效

申请号：	201510179688.9	申请日：	2015-04-14
公开（公告）号：	CN104731772B	公开（公告）日：	2017-05-24
发明（设计）人：	王青松;魏如玉;温翠娟;张黎	申请（专利权）人：	辽宁大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	沈阳杰克知识产权代理有限公司21207	代理人：	罗莹
地址：	110000 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于改进特征评估函数的贝叶斯垃圾邮件过滤方法，步骤如下1)对训练邮件集进行预处理分为邮件头部和正文部分；2)分别在两个特征集T1，T2中删除介词、代词、副词、助词，连接词以及词频低于给定的阈值p的词语；3)分别在特征项集合T1’，T2’中运用改进的特征评估函数计算出互信息值MI(tk)’；4)在训练集内，对MI(tk)’其按从大到小的顺序进行排序，选择前n个值对应的特征项用于训练集的表示；5)分类阶段运用贝叶斯分类器对待测试的样本进行垃圾邮件过滤。本发明能够高效准确的对邮件进行分类，并且过滤掉垃圾邮件。
搜索关键词：	基于改进特征评估函数贝叶斯垃圾邮件过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于改进特征评估函数的贝叶斯垃圾邮件过滤方法，其特征在于，步骤如下：1)对训练邮件集进行预处理：将邮件分为邮件头部和正文部分两个子文本集S1,S2，在其中分别进行分词，组成两个特征项集合T1，T2；2)分别在两个特征集T1，T2中使用停用词表删除介词、代词、副词、助词、连接词以及词频低于给定的阈值p的词语，处理后的特征项集合记为T1’，T2’；3)分别在特征项集合T1’，T2’中运用改进的特征评估函数计算出互信息值MI(tk)’：3a)设特征向量集合T＝{tk,k＝1,2,…,n}，在网络文件文本库中获得训练集类别集合C＝{cj,i＝1,2,…,r}；3b)利用公式(1)计算得出修正系数λ：其中，表示特征项tk在cj里的词频数；3c)利用公式(2)计算得出MI(tk)：其中，P(tk|cj)为类cj内含有tk的文本概率，P(tk)为含有tk的文本在训练集类别集合里出现的概率，P(cj)为训练集类别集合里属于类别cj的文本出现概率；3d)利用公式(3)得出tk基于训练集的互信息值MI(tk)’：其中，βi(i＝1,2)代表邮件头部和正文部分两个子集位置的不同权重，β1代表邮件头部的权重，β2代表正文部分的权重，且应满足β1>β2,β1+β2＝1；4)在训练集内，计算出特征项tk相应的互信息值MI(tk)，并对其按从大到小的顺序进行排序，选择前n个值对应的特征项用于训练集的表示,得出特征属性和训练样本；5)运用贝叶斯分类器对测试样本进行垃圾邮件过滤，贝叶斯公式如下：其中Wi代表类别，其中W1代表垃圾邮件，W2代表正常邮件，Xj为待分类的文本，计算垃圾邮件和正常邮件在(4)中所得的训练样本中的出现频率P(Wi)及每个特征项划分对每个类别的条件概率估计P(Xj|Wi)，得出P(Wi|Xj)即在特征项Xj出现的情况下邮件是垃圾邮件或者正常邮件的概率，生成贝叶斯分类器，再对测试样本即可使用生成的分类器计算垃圾邮件P(W1|Xj)和正常邮件P(W2|Xj)的概率，若有P(W1|Xj)<P(W2|Xj)，则判断为正常邮件，否则作为垃圾邮件被过滤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于辽宁大学，未经辽宁大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510179688.9/，转载请声明来源钻瓜专利网。

上一篇：一种译文评价方法及装置
下一篇：基于规则和统计模型的中文微博情感分析方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于改进特征评估函数的贝叶斯垃圾邮件过滤方法有效

专利文献下载