[发明专利]一种与内容无关的垃圾邮件过滤方法有效

专利信息
申请号: 201410405970.X 申请日: 2014-08-14
公开(公告)号: CN105337842B 公开(公告)日: 2018-08-07
发明(设计)人: 胡勇;张晨威;张智军;邓勇;刘梅;张享周;陈诗峰;谢康;肖静华;姜灵敏;曾驭然;张振华;丘心颖;陈蔚琦;刘康;苏丽君;郭策 申请(专利权)人: 广东外语外贸大学;胡勇;邓勇
主分类号: H04L12/58 分类号: H04L12/58
代理公司: 暂无信息 代理人: 暂无信息
地址: 510420 *** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 内容 无关 垃圾邮件 过滤 方法
【说明书】:

发明提供了一种与内容无关的垃圾邮件过滤方法,包括如下特征提取、特征量化和机器学习分类三个步骤,其中特征量化包括如下步骤:1)对于邮件样本的标题,去除标点,特殊符号以及停用词;2)经分词转化为由单词组成的特征向量;3)将步骤2)中特征向量的每一个元素进行统计,并分别对照垃圾标题特征集和合法标题特征集进行统计,查找各个元素分别在这两个集中出现的频率次数,并将结果分为四种情况,分别得到基本概率指派函数;4)将步骤3)的基本概率指派函数根据证据理论的D‑S组合规则进行融合,得到最终的基本概率指派函数。5)将最终的基本概率指派函数经过赌博概率转化作为邮件标题特征量化的结果。

技术领域

本发明属于垃圾邮件过滤方法,特别是涉及一种与内容无关的垃圾邮件过滤方法。

背景技术

随着互联网技术的发展,电子邮件成为一种重要的通讯工具。但随之而来的垃圾邮件数量众多,这些垃圾邮件具有反复性、强制性、欺骗性、不健康性或传播速度快等特点,严重影响了人们的正常邮件交流。对于垃圾邮件过滤技术,目前主流的技术主要分为非机器学习型和机器学习型。非机器学习型邮件过滤系统(如黑名单式)的缺点在于系统无法学习更新数据,难将其部署为一个单机(而非联网)的过滤系统,且有很大几率把正常邮件当作垃圾邮件过滤。机器学习型系统分为基于内容和不基于内容的邮件过滤系统。由于邮件中各种多媒体技术的发展,基于内容的分析变得困难,越来越多的研究转向对于邮件其他元素(标题,邮件发件人IP地址等非正文元素)的分析。

Bayes(贝叶斯)方法是当前实际使用最多的垃圾邮件过滤方法。由于Bayes对于邮件分类的速度很快,而且在识别过滤过程中可以进行动态的调整,因此在垃圾邮件过滤方面应用最为广泛。然而由于垃圾邮件本身的一些伪装方法比较好或者合法邮件的一些关键字和符合垃圾邮件的关键字匹配,使得目前垃圾邮件的识别越来越困难。一个邮件样本难以明确地归为某一类,而以一定概率或一定隶属度属于某一类。因此,在对样本的类型不确定性比较大的时候,强行分类势必会造成分类结果错误,正确率下降的情况。无论是黑名单式的方法还是贝叶斯的方法,仅用邮件分类输出y∈{spam,legitimate}表示类别信息并不恰当。可以有更恰当的方法来处理这种不确定的情况。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足,提供一种处理不确定性的方法;基于这种处理不确定性的方法,提出一种与内容无关的垃圾邮件过滤方法。

本发明所使用的证据理论是一套基于“证据”和“组合”来处理不确定性推理问题的数学方法。这种Dempster-Shafer(D-S)理论能有效地提高不确定情况下目标的识别能力。该理论把概率论中的基本事件空间拓宽为基本事件的幂集(又称为辨识框架),在辨识框架上建立了基本概率指派函数(Basic Probability Assignment,下文简写为BPA)。此外,证据理论还提供了一个D-S组合规则,该规则可以在没有先验信息的情况下实现证据的融合。

本发明采用如下技术方案:

一种与内容无关的垃圾邮件过滤方法,其包含如下步骤:(1)对待过滤邮件样本的邮件信头和邮件标题进行特征提取,(2)对步骤(1)所得的邮件信头特征进行特征量化,(3)对步骤(1)所得的邮件标题特征进行特征量化,(4)将步骤(2)和(3)所得结果输入人工神经网络分类器进行分类,根据分类结果判断待过滤邮件样本是否为垃圾邮件。其特征在于:

对于一个电子邮件样本e,所述步骤(2)具体包括如下步骤:1)判断邮件信头的发件人地址特征是否合法,转化为二值特征sender(e);2)对邮件信头的收件人地址和抄送人进行量化,将收件人个数转化为特征nrcpt(e);3)对邮件信头的邮件客户端根据是否支持匿名大量发送邮件进行量化,得到二值特征xmalr(e);4)对邮件信头中的IP地址进行量化,将IP地址转化为无符号整数特征ip(e)。另外,所述步骤(3)具体包括如下步骤:

1)对邮件标题去除标点符号、特殊符号、停用词后,经分词转化为由单词组成的特征向量G;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学;胡勇;邓勇,未经广东外语外贸大学;胡勇;邓勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410405970.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top