[发明专利]一种基于协同训练的垃圾邮件过滤方法和装置有效
申请号: | 201110369697.6 | 申请日: | 2011-11-18 |
公开(公告)号: | CN102404249A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 徐燕;邱泳钦;李丹;周美林 | 申请(专利权)人: | 北京语言大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 协同 训练 垃圾邮件 过滤 方法 装置 | ||
1.一种基于协同训练的垃圾邮件过滤方法,其特征在于,所述方法包括:
输入待过滤的邮件集合,所述邮件集合包括已标注邮件和未标注邮件;
根据所述邮件集合得到每个样本的特征向量,其中一个样本对应一封邮件;
将所述每个样本的特征向量划分为第一特征向量子集和第二特征向量子集,所述第一特征向量子集中的特征来源于邮件头信息,所述第二特征向量子集中的特征来源于邮件内容信息;
将所述第一特征向量子集和第二特征向量子集分别作为所述每个样本的第一视角和第二视角;
利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器;
根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。
2.如权利要求1所述的基于协同训练的垃圾邮件过滤方法,其特征在于,根据所述邮件集合得到每个样本的特征向量包括:
利用特征选择技术对已标注邮件的每个样本的邮件内容信息进行处理得到基于邮件内容的若干特征;
根据已标注邮件的每个样本的邮件头信息得到基于邮件头的若干特征;
根据所述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。
3.如权利要求2所述的基于协同训练的垃圾邮件过滤方法,其特征在于,所述根据每个样本的邮件头信息得到基于邮件头的若干特征包括:
对邮件头中各个字段进行特征信息提取;
根据提取的特征信息得到时区、时间、IP地址的特征,以及IP地址与计算机名及域名的匹配特征,以及发件人地址格式特征。
4.如权利要求1所述的基于协同训练的垃圾邮件过滤方法,其特征在于,所述利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器包括如下步骤:
步骤1、从所有未标注邮件中选取z个邮件构成协同训练所使用的未标注邮件样本集合U;
步骤2、从所述未标注邮件样本集合U中随机挑出n个未标注的样本,构成待标注样本集合Vi,余下的z-n个未标注邮件样本构成候选样本集合Hi,并将所有的已标注的样本组成已标注样本集合Li,其中,i表示迭代的次数,初始化为i=1;
步骤3、利用所述已标注样本集合Li中每一个样本的第一视角,采用贝斯方法构造贝叶斯分类器h1i;
步骤4、利用分类器h1i对待标注的样本集合Vi中待标注样本的第一视角进行标注,得到所有的待标注样本的类别标记及其隶属于此类别的置信度,并从该类别标记中选出m个隶属于垃圾邮件和非垃圾邮件的置信度最大的类别标记,将该类置信度最大的类别标记连同其相对的m个待标注样本,加入到有标注样本集合Li中,得到更新的已标注的样本集合Li′,并将上述m个待标注的样本从待标注样本集合Vi中删除,得到更新的待标注样本集合Vi′;
步骤5、利用更新的已标注的样本Li′中每个样本的第二视角,采用贝叶斯方法构造贝叶斯分类器h2i;
步骤6、利用利用贝叶斯分类器h2i对更新的待标注邮件样本集合Vi′中待标注样本的第二视角进行标注,得到所有的待标记样本的类别标记及其隶属于此类别的置信度,从该类别标记中选出m个隶属于每一个类别置信度最大的标记,将该每一个类置信度最大的类别标记连同其对应的m个待标注样本,加入到上述更新的已标记样本集合Li′中,得到已标记样本集合Li+1,并将上述m个待标注的样本从更新的待标注样本集合Vi′中删除,得到二次更新的待标注样本集合Vi″;
步骤7、从候选样本集合Hi中选取p个样本,加入到二次更新的待标注样本集合Vi″中,得到待标注样本集合Vi+1,并将这p个样本从候选样本集合Hi中删除,得到候选样本集合Hi+1,其中,p≥2m;
步骤8、更新变量,i=i+1;
步骤9、判断候选样本集合Hi是否为空集,如果为空集则结束迭代,将此时的两个贝叶斯分类器分别记为最终的第一分类器h1k和第二分类器h2k,其中,k为迭代结束时i的值,如果Hi不为空集,则返回步骤3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110369697.6/1.html,转载请声明来源钻瓜专利网。