[发明专利]对垃圾邮件进行拦截的方法和装置有效
申请号: | 200810227762.X | 申请日: | 2008-12-02 |
公开(公告)号: | CN101415159A | 公开(公告)日: | 2009-04-22 |
发明(设计)人: | 王晖 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04W4/12 | 分类号: | H04W4/12;H04W48/08;H04W12/12 |
代理公司: | 北京凯特来知识产权代理有限公司 | 代理人: | 郑立明 |
地址: | 518028广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾邮件 进行 拦截 方法 装置 | ||
技术领域
本发明涉及网络通信技术领域,尤其涉及一种对垃圾邮件进行拦截的方法和装置。
背景技术
在电子邮件领域内,垃圾邮件越来越泛滥,这不单增加了正常邮件使用者的处理时间,还会浪费邮件系统的宝贵资源,从而阻碍了用户获取有用信息的过程,因此垃圾邮件是一个必需要解决的问题。
目前,在邮件系统中普遍采用基于字符串的拦截技术来对抗垃圾邮件,该基于字符串的拦截技术需要预先建立一个字符串库,该字符串库中的字符串采用现有的单字或词语,字符串的长度比较固定。该字符串库需要具有一定的更新周期和规模,该字符串库中可供扫描的字符串规模往往达到百万级别。在实际应用中,利用上述字符串库中的字符串,采用全文顺序扫描或正则表达式匹配的处理方式对接收到的邮件进行过滤,判断接收到的邮件为垃圾邮件或正常邮件,并拦截垃圾邮件。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
使用现有的单字或词语来组成字符串会带来比较大的误判情况,因为这些现有的单字或词语并不只是出现在垃圾邮件中,有时在正常邮件中也出现,从而带来了误判。
上述全文顺序扫描或正则表达式匹配的处理形式由于采用字符串库中的完整字符串对邮件进行过滤,在字符串库的规模比较大时,效率低下,无法实现对接收到的邮件进行实时过滤,严重影响用户的使用效果。
发明内容
本发明的实施例提供了一种对垃圾邮件进行拦截的方法和装置,以降低垃圾邮件的误判率,并且提高邮件的过滤效率。
一种对垃圾邮件进行拦截的方法,包括:
获取需要进行过滤处理的邮件的文本数据;
判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串;
获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后,而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息;
当所述邮件的扫描命中的次数大于设定的次数,则判定所述邮件为垃圾邮件;或者,当所述邮件的扫描命中的次数大于设定的次数,并且扫描命中的字符串的长度大于设定的长度,则判定所述邮件为垃圾邮件。
一种对垃圾邮件进行拦截的装置,包括:
文本数据获取模块,用于获取需要进行过滤处理的邮件的文本数据;
字符判定模块,用于判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串;
邮件处理模块,用于根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截;
所述的邮件处理模块具体包括:
扫描信息获取模块,用于获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后,而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息;
判定和拦截模块,用于当所述邮件的扫描命中的次数大于设定的次数,则判定所述邮件为垃圾邮件;或者,当所述邮件的扫描命中的次数大于设定的次数,并且扫描命中的字符串的长度大于设定的长度,则判定所述邮件为垃圾邮件,对判定的垃圾邮件进行拦截。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例根据关键字对邮件的文本数据进行扫描,在关键字匹配后,才根据该关键字对应的字符串对邮件的文本数据进行扫描,从而可以提高扫描速度和效率,在字符串库规模较大的时候也能够实现对邮件进行实时过滤。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的对垃圾邮件进行拦截的方法的处理流程图;
图2为实施例二提供的一种对垃圾邮件进行拦截的装置的具体实现结构图。
具体实施方式
在本发明实施例中,获取需要进行过滤处理的邮件的文本数据。判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810227762.X/2.html,转载请声明来源钻瓜专利网。