[发明专利]一种过滤国际互联网络中垃圾电子邮件的系统及其实现方法无效
申请号: | 200610060960.2 | 申请日: | 2006-06-07 |
公开(公告)号: | CN101087259A | 公开(公告)日: | 2007-12-12 |
发明(设计)人: | 陈诗峰;李晔;马驰腾 | 申请(专利权)人: | 深圳市都护网络科技有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06Q10/00;H04L29/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000广东省深圳市福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 过滤 国际 互联网络 垃圾 电子邮件 系统 及其 实现 方法 | ||
技术领域
本发明涉及个人电脑系统电子邮件终端、商用电子邮件服务器的垃圾邮件过滤功能。
背景技术
在互联网时代,电子邮件是最简单、廉价和方便的通讯手段,它已经成为商业和个人用户最主要的通讯手段之一。由于其廉价和方便的特点,令很多人利用这种渠道发送宣传自身的广告信件,这类广告信件中包括了色情网站和赌博网站,还有些不法分子利用电子邮件大量散播带有反动内容的信件。而这种广告信件对绝大多数的接受者来说是没有意义甚至是有害的,这类信件被统称为垃圾邮件。现在垃圾信件已经多到令人无法忍受的地步(现在网络上传送的邮件居然有超过70%是垃圾邮件),用户对这些垃圾邮件不胜其烦,而运营商却不得不为这些垃圾邮件所耗费的大量的服务器资源和网络资源买单。
在垃圾邮件数量不断增加,发送手法日益高明的同时,作为对抗垃圾邮件的主要方式,垃圾邮件过滤系统也在迅速发展,现在主流的垃圾邮件过滤手段有:
1、全文关键字检索
全文关键字检索是一种历史悠久的过滤方式,通过邮件管理员添加被禁止的关键字(例如:色情),系统对邮件的内容进行分析,一旦发现符合的关键字,该邮件将被阻拦。
这种方式的有两个缺点:
a.很容易将正常邮件当成垃圾邮件禁止。以刚才的关键字:“色情”为例,如果信件的内容里包括“不要看色情电影”这句话,那么,这封邮件也会被阻止。这是显而易见的错误判断。
b.真正的垃圾邮件很容易绕过关键字的阻碍。还是刚才那个例子:
“色情”会被拒绝,但是“色_情”就能通过验证,这只是一个简单的例子,还有更难以防范的,例如:用阿拉伯数字1代替英文字母l,用英文字母o代替数字0的做法,Sale变成了Sale,对于用户而言,这两个词没有分别,但是关键字是没有办法过滤的。
c.邮件全文匹配的算法复杂度随着关键字的数量而线性增长,所以目前大部分过滤系统的关键字规则都有上限,这个缺陷不单只限制了过滤效果,而且对系统的稳定性也造成了威胁。
2、行为判断
行为判断是根据邮件发送的行为来判断是否垃圾邮件,例如,在1秒钟之内,从一个客户端发出2-3封信,如果是人手操作,不可能有这么快的速度(垃圾邮件发送者利用群发软件发送),这种情况往往是垃圾邮件。另一种情况是:从一台邮件服务器在一段世纪那内大量发送邮件,这也有可能被认为是正在发送垃圾。行为判断也有一些缺点:
a.随着垃圾邮件发送技术的提高,群发软件能够控制速度,节奏的发送,这样,就能有效的绕过行为模式的过滤系统。
b.很多垃圾邮件发送者已经不再利用自身的邮件服务器发送垃圾,而是通过病毒控制用户的计算机,然后利用这些计算机发送,对于这种方式,行为模式也无法对付。
c.有的邮件服务器属于大公司,本身就很繁忙,所以发送量很大,如果行为模式判断得阀值设置过低,会将这种情况误认为是垃圾。如果阀值设置过高,那么,有很多垃圾邮件的发送行为又无法判断。
3、IP黑名单
通过把垃圾邮件发送者的IP收集并列入黑名单也是一种垃圾邮件过滤办法,但是这种方式在中国行不通。
a.因为中国IP资源紧缺,多数人使用的是动态IP,所谓动态的含义就是:这次你上网用的是一个IP,下次再次拨号,用的就是另外一个IP了,对于这类动态IP,无法加入黑名单。
b.很多垃圾邮件发送者已经不再利用自身的邮件服务器发送垃圾,而是通过病毒控制用户的计算机,然后利用这些计算机发送,这种方式无法通过IP黑名单的方式解决。
4、Hash检索
这个技术在反病毒领域应用很成功,这是因为病毒样本的数量相对垃圾样本来说少的可怜,目前最大的病毒库(Kaspersky)的病毒数量也不超过20万种,而垃圾样本则不计其数。
i.Hash检索的最大问题就是采样的速度和数量。
ii.另外生成垃圾的HASH值得时候还需要人工确认是否是垃圾邮件,这样的巨大的工作量是无法交给门户网站的管理员去完成的。
iii.因为垃圾邮件很容易就可以加入干扰信息使HASH值产生跳跃,所以如果构造一个HASH函数使得在有干扰的前提下,能够产生相近的HASH值,从而影响过滤系统的过滤能力。
5.概率算法
概率算法可以认为是Hash算法的一种特殊扩展形式,它选用了概率函数作为Hash函数,最常用的HASH函数就是全条件概率公式,即贝叶斯算法。其缺点非常明显:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市都护网络科技有限公司,未经深圳市都护网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610060960.2/2.html,转载请声明来源钻瓜专利网。