[发明专利]一种多协议支持的网络垃圾信息过滤方法和装置无效
申请号: | 200710049316.X | 申请日: | 2007-06-18 |
公开(公告)号: | CN101330473A | 公开(公告)日: | 2008-12-24 |
发明(设计)人: | 何兴高;高嵘;秦志光;李晓;程红蓉;郑梅 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L9/32 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 协议 支持 网络 垃圾 信息 过滤 方法 装置 | ||
技术领域
本发明涉及一种多协议支持的垃圾信息过滤方法和装置,利用Linux中的netfilter,iptables模块对相关协议的包进行扣留,然后模拟协议栈进行ip,tcp层的协议分析和还原,得到完整的网络信息(完整邮件信息,短信或者网页信息等)。最后利用行为过滤,bayes过滤,规则过滤等方法对信息进行分析,确定其性质。
背景技术
国内外有一些垃圾邮件过滤产品,大多都是基于硬件的,能做到实时阻断,价格十分昂贵,具体情况参看下图。大多数产品都一个通病,扩展性不好。另外程序的执行效率太依赖硬件。
国外也有很多的垃圾信息过滤产品,比如spamato,这是java写的软件。它工作与客户端,例如outlook,一般作为其一个插件。缺点有:
1不能实时的阻断垃圾信息,它在垃圾信息到达后再分析,这样垃圾信息造成的带宽占用已经形成。
2工作于客户端,只能处理很小流量的信息,不能处理大流量信息。
关于垃圾邮件分类算法的研究,国内外的发展现状可以大体概括如下:部分发达国家(特别是英语国家,如美国、加拿大、英国、澳大利亚等,这些国家同时也是垃圾邮件的重灾区)偏重于反垃圾邮件基础理论的研究,致力于尝试将新理论、新方法引入到反垃圾邮件技术领域;部分非英语发达国家和发展中国家(如中国、德国、瑞士、巴西、韩国、日本)则偏重于对反垃圾邮件最新研究成果的应用,更多是致力于反垃圾邮件术的本土化,其中也不乏对已有反垃圾邮件理论和技术进行革新和改进的创造性工作。
目前的算法研究热点逐渐倾向于基于内容的机器学习判别方法。基于内容判别垃圾邮件的方法可以大体分成基于规则的方法和基于概率统计的方法。前者常常得出人们可以理解的显式规则;后者往往通过某种计算表达式推出结果。本质上,概率统计方法可以看成规则方法的一种推广,只不过概率统计方法中得到的规则是一种不被人轻易理解的“隐式规则”。无论是基于规则的方法还是基于概率统计的方法,在使用时都经历从训练到过滤的过程。通过已有的训练集合(正例+反例)训练出相应的垃圾邮件规则(包括显式规则或隐式规则),然后将规则应用到新的邮件判定中去。在实际应用中可能还会加入人机交互过程,通过用户对程序判定误差的修订来调整和更新垃圾邮件过滤规则。
总的说来,国内外学术界研究的焦点目前集中于基于统计方法的垃圾邮件识别分类技术。主要的研究手段日趋集中在实现机器学习领域的模式分类算法向垃圾邮件智能处理领域的移植,例如决策树方法、bayes算法、Adaboost算法、支持向量机方法、Winnow算法(一种改进的神经网络分类算法)、粗糙集方法(Rough Set)、最大熵模型、Rocchio方法、神经网络方法(NN,Neural Network)、k-近邻算法等。之所以出现这种学术研究上的偏好的原因主要有两点:一是在反垃圾邮件支持者与垃圾邮件发送者两大阵营长期“斗法”的过程中,传统的基于黑白名单和基于规则过滤的方法由于其内在的缺陷(如:灵活性、智能性差、漏报率和误报率高),已经难以应付手法日益巧妙的垃圾邮件发送者,而具备学习能力的统计方法则在理论研究和实际应用中表现出异乎寻常的优越性,经过良好训练的统计过滤器往往能够以极高的准确率阻断某些特征不显著的垃圾邮件,甚至通过自学习识别出某些未知特征的垃圾邮件;另一个原因是将Naive Bayes方法引入到反垃圾邮件处理领域的先驱PaulGraham在“A Plan For Spam”一文中作出的著名论断:“The Achilles heel of the spammersis their message.”,也就是说垃圾
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710049316.X/2.html,转载请声明来源钻瓜专利网。