[发明专利]反垃圾邮件网关系统及方法有效
申请号: | 201110304470.3 | 申请日: | 2011-10-10 |
公开(公告)号: | CN102377690A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 蔡瑞初;向东;熊卫华;洪陆驾;谭景峰;乔斌;潘雷明;周达和 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L12/24;G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾邮件 网关 系统 方法 | ||
技术领域
本发明涉及电子邮件处理领域,特别涉及一种基于大规模邮件内容聚类的反垃圾邮件网关系统及方法。
背景技术
垃圾邮件通常被定义为具有下述属性的电子邮件:(一)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;(二)收件人无法拒收的电子邮件;(三)隐藏发件人身份、地址、标题等信息的电子邮件;(四)含有虚假的信息源、发件人、路由等信息的电子邮件。
自从第一封垃圾邮件诞生以来,垃圾邮件成了困扰邮件用户的难题,也成了邮件运营商的提高用户体验、吸引用户的重要考虑因素。反垃圾邮件的任务是将垃圾邮件阻挡在邮件系统或者用户收件箱以外。主流的的反垃圾技术主要基于邮件内容和邮件发信行为。
现有的基于邮件内容的反垃圾邮件技术主要有:开源系统Dspam(通过网站http://www.nuclearelephant.com可以下载);腾讯科技(深圳)有限公司的申请号为200810227762、发明名称为“专利对垃圾邮件进行拦截的方法和装置”的专利申请;浙江大学的申请号为200810059602、发明名称为“基于Logistic回归的中文垃圾邮件过滤方法”的专利申请;北京大学的申请号为200810115584、发明名称为“一种垃圾邮件检测方法”的专利申请等。
上述反垃圾邮件技术主要包括训练和线上使用两个流程,下面以Dspam为例介绍其在训练和线上使用时的几个主要步骤,其余相关技术基本类似。Dspam的训练流程包含以下几个步骤:1、获取大量邮件样本并将这些样本人工标识为垃圾邮件和正常邮件;2、对邮件进行解码;3、对邮件正文内容进行分词;4、统计各个分词出现的频率;5、使用贝叶斯公式训练朴素贝叶斯分类模型。Dspam模型训练好以后,线上使用流程相对简单,仅包含以下两个步骤:1、对线上邮件进行分词;2、使用训练好的朴素贝叶斯分类模型对邮件进行分类。
基于实时发信行为的反垃圾邮件策略与基于内容反垃圾邮件策略的具有较大差别。基于实时行为的反垃圾系统一般没有训练这个步骤。典型的邮件发信行为的反垃圾策略主要有Checksum(通过网站http://www.rhyolite.com/dcc/可以下载),哈尔滨工程大学的申请号为200810064806、发明名称为“一种基于拓扑行为的垃圾邮件判定方法”专利申请等。下面以Checksum为例介绍其基本流程。Checksum的基本假设为重复度大的邮件为垃圾邮件,其流程大致如下:1、针对每个邮件算一个指纹;2、针对线上系统所有邮件的指纹进行计数;3、对于指纹重复度高的邮件直接判为垃圾邮件。
邮件内容和实时发信行为相结合是目前商业反垃圾邮件系统方面的主流。将邮件内容和实时发信行为特性转换为规则,并采取各个规则累积加分,并根据得分阈值判断是否为垃圾邮件是将两者结合的有效手段。代表性的技术有,开源系统的SpamAssassin(通过网站http://spamassassin.apache.org/可以下载)、华南理工大学的申请号为200710029369、发明名称为“基于综合决策的防垃圾邮件误过滤方法及系统”的专利申请,商业系统赛门铁克公司的bright mail系统(通过网站http://www.symantec.com/business/products/family.jsp?familyid=brightmail可以下载),汉启科技的KBAS系统(通过网站http://www.hanqinet.com/projectl.html可以下载)等。以SpamAssassin为代表的介绍其主要流程。SpamAssassin包含训练和线上使用两个流程。基于规则的反垃圾相关技术的训练主要包括以下几个步骤:1、获取大量邮件样本并将这些样本人工标识为垃圾邮件和正常邮件;2、人工添加规则并建立规则库;3、使用人工标识样本对规则进行评分。线上使用则包含以下两个步骤:1、计算每封邮件匹配的规则;2、对所有满足的规则得分求和并根据阈值判断是否为垃圾邮件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110304470.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于模塑电子器件的衬底载体
- 下一篇:无线通信系统中的用户设备和方法