[发明专利]对垃圾邮件进行拦截的方法和装置有效
申请号: | 200810227762.X | 申请日: | 2008-12-02 |
公开(公告)号: | CN101415159A | 公开(公告)日: | 2009-04-22 |
发明(设计)人: | 王晖 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04W4/12 | 分类号: | H04W4/12;H04W48/08;H04W12/12 |
代理公司: | 北京凯特来知识产权代理有限公司 | 代理人: | 郑立明 |
地址: | 518028广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾邮件 进行 拦截 方法 装置 | ||
1.一种对垃圾邮件进行拦截的方法,其特征在于,包括:
获取需要进行过滤处理的邮件的文本数据;
判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串;
获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后,而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息;
当所述邮件的扫描命中的次数大于设定的次数,则判定所述邮件为垃圾邮件;或者,当所述邮件的扫描命中的次数大于设定的次数,并且扫描命中的字符串的长度大于设定的长度,则判定所述邮件为垃圾邮件。
2.根据权利要求1所述的方法,其特征在于,所述的获取需要进行过滤处理的邮件的文本数据,具体包括:
在接收到一个需要进行过滤处理的邮件后,对该邮件解码,获得该邮件的标题和正文字内容,将该标题和正文进行拼接后,得到所述邮件的待过滤的文本数据,并将该文本数据进行保存。
3.根据权利要求1所述的方法,其特征在于,所述的字符串资源库中的字符串由一个或多个字符单位来组成,该字符单位包括:一个英文单词、一个中文单字、单个英文字母、半个中文单字或一个全角半角的标点符号中的至少一项。
4.根据权利要求1或2或3所述的方法,其特征在于,所述的判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串,具体包括:
建立所述字符串资源库的哈希总表和哈希链表,所述哈希总表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串的长度信息,所述哈希链表中保存所述关键字对应的字符串的完整的组成字符信息;
从所述文本数据的第一个字符单位开始,取出设定数量的字符出来,检测所述哈希总表中是否存在和所述设定数量的字符相同的关键字,如存在,则获取该关键字对应的长度值,根据该长度值从所述文本数据中截取相应的字符串,检测所述哈希链表中是否存在所述截取的字符串,如存在,则确定对所述文本数据一次扫描命中,并记录扫描命中的次数,以及相应的关键字和字符串信息;
如果所述哈希总表中不存在和所述设定数量的字符相同的关键字,或者,所述哈希链表中不存在所述截取的字符串,则后移一个字符单位后从所述文本数据中取出设定数量的字符出来,再执行和所述的从第一个字符开始取出的设定数量的字符相同的处理过程,直到所述文本数据的最后设定数量的字符串被检测完毕。
5.根据权利要求4所述的方法,其特征在于,所述的建立所述字符串资源库的哈希总表和哈希链表,具体包括:
截取所述字符串资源库中的第一个字符串的头设定数量的字符作为关键字,判断所述字符串资源库中的除了第一个字符串的其它字符串的头设定数量的字符是不是和所述关键字相同,如果相同,则将所述关键字和其它字符串的长度信息记录在哈希总表中,将所述其它字符串的完整的组成字符信息记录在哈希链表中;
再截取所述字符串资源库中的除了所述哈希链表中记载的字符串之外的第二个字符串的头设定数量的字符作为关键字,执行和所述的第一个字符串的头设定数量的字符相同的处理过程,直到所述字符串资源库中的所有字符串的头设定数量的字符和长度信息都记录在哈希总表中,所有字符串的完整的组成字符信息都记录在哈希链表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810227762.X/1.html,转载请声明来源钻瓜专利网。