[发明专利]反垃圾邮件网关系统及方法有效
申请号: | 201110304470.3 | 申请日: | 2011-10-10 |
公开(公告)号: | CN102377690A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 蔡瑞初;向东;熊卫华;洪陆驾;谭景峰;乔斌;潘雷明;周达和 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L12/24;G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾邮件 网关 系统 方法 | ||
1.一种反垃圾邮件网关系统,其包括:
邮件系统接口,用于从邮件传输代理实时获取线上邮件并将邮件传递给邮件分发模块,将在线邮件分类模块的邮件分类结果返回给邮件传输代理,将离线邮件分类模块的垃圾邮件列表返回给邮件传输代理;
邮件分发模块,用于将线上邮件请求转发给在线/离线邮件分类器,将通过各种方式反馈的邮件请求传递给邮件样本收集模块;
在线邮件分类模块,用于根据已有的正常/垃圾邮件特征对线上邮件进行分类,并将鉴别结果实时返回给邮件传输代理,并按照一定时间间隔从邮件特征数据库获取最新的邮件特征;
离线邮件分类模块,用于按照一定时间间隔从邮件特征数据库获取最新的邮件特征,使用最新提取的邮件特征对过去一段时间的缓存邮件进行分类,并将分类结果返回给邮件传输代理;
邮件样本收集模块,响应邮件分发模块发送过来的请求,建立连接获取邮件样本类型及内容;
邮件特征挖掘模块,用于从邮件样本数据库中获取邮件样本,并从中挖掘垃圾邮件及正常邮件的特征,并将挖掘到的邮件特征通过系统管理员审核后进入到邮件特征数据库;
邮件样本数据库,用于存储各种邮件样本。
2.如权利要求1所述的邮件网关系统,其特征在于,邮件特征挖掘模块还用于从邮件样本数据库中获取邮件样本,将该邮件样本与所有的中心点进行比对,如果相似性小于一定的阈值则直接将样本加入到该中心点,其中每个中心点为一类样本的代表,在计算邮件样本与中心点的相似性时,将邮件样本与中心点分别解析为多个部分内容,针对每个部分比较二者的相似性,根据各个部分的相似性进行加权组合获得邮件样本与中心点的全局相似性。
3.如权利要求2所述的邮件网关系统,其特征在于,在针对每个部分比较邮件样本和中心点的相似性时,对枚举变量采用集合是否有交集来度量其相似性,对长文本信息及附件采用指纹计算两者的相似性,对短文本采用Needleman-Wunsch算法确定两者间的相似性。
4.如权利要求3所述的邮件网关系统,其特征在于,当一个新的邮件样本进入时,将该邮件样本与所有的中心点进行比对,如果相似性小于一定的阈值则直接将样本加入到该中心点,当聚类后一个类别中样本超过一阈值,并且举报为正常邮件样本的比例少于另一阈值,则抽取该类别中心为垃圾邮件样本。
5.如权利要求4所述的邮件网关系统,其特征在于,所述系统进一步包括:
管理员接口,用于系统管理员对网关系统挖掘得到的邮件特征的人工审核确认,部分可疑邮件的审核,各种参数的设置。
6.一种反垃圾邮件方法,该方法包括步骤:
通过邮件系统接口从邮件传输代理实时获取线上邮件并将邮件传递给邮件分发模块,将在线邮件分类模块的邮件分类结果返回给邮件传输代理,将离线邮件分类模块的垃圾邮件列表返回给邮件传输代理;
通过邮件分发模块将线上邮件请求转发给在线/离线邮件分类器,并将通过各种方式反馈的邮件请求传递给邮件样本收集模块;
利用线邮件分类模块根据已有的正常/垃圾邮件特征对线上邮件进行分类,并将鉴别结果实时返回给邮件传输代理,并按照一定时间间隔从邮件特征数据库获取最新的邮件特征;
利用离线邮件分类模块按照一定时间间隔从邮件特征数据库获取最新的邮件特征,使用最新提取的邮件特征对过去一段时间的缓存邮件进行分类,并将分类结果返回给邮件传输代理;
通过邮件样本收集模块响应邮件分发模块发送过来的请求,建立连接获取邮件样本类型及内容;
通过邮件特征挖掘模块从邮件样本数据库中获取邮件样本,并从中挖掘垃圾邮件及正常邮件的特征,并将挖掘到的邮件特征通过系统管理员审核后进入到邮件特征数据库;
在邮件样本数据库中存储各种邮件样本。
7.如权利要求6所述的方法,其特征在于,邮件特征挖掘模块还用于从邮件样本数据库中获取邮件样本,将该邮件样本与所有的中心点进行比对,如果相似性小于一定的阈值则直接将样本加入到该中心点,其中每个中心点为一类样本的代表,在计算邮件样本与中心点的相似性时,将邮件样本与中心点分别解析为多个部分内容,针对每个部分比较二者的相似性,根据各个部分的相似性进行加权组合获得邮件样本与中心点的全局相似性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110304470.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于模塑电子器件的衬底载体
- 下一篇:无线通信系统中的用户设备和方法