[发明专利]反垃圾过滤规则升级方法和装置有效
申请号: | 201410102982.5 | 申请日: | 2014-03-19 |
公开(公告)号: | CN103902673B | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 戴明洋 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京市京大律师事务所11321 | 代理人: | 张璐,方晓明 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾 过滤 规则 升级 方法 装置 | ||
技术领域
本发明涉及互联网领域,尤其涉及一种反垃圾过滤规则升级方法和装置。
背景技术
在当前的互联网信息化时代中,人们通过电子邮件进行交流或通信的行为越来越普遍。电子邮件采用储存-转发方式在网络上逐步传递信息,具有传播速度快、交流对象广泛、成本低廉等特点。一些商家或组织也借机发布一些包含有广告宣传内容或恶意虚假内容的电子邮件,这些电子邮件给人们造成了极大干扰。
目前,用户可以使用电子邮箱提供的举报功能,通过点击电子邮箱中的举报按钮对接收到的电子邮件进行举报,用户举报数据系统将用户举报的电子邮件记录到用户行为日志中。为描述方便,将用户举报的电子邮件简称为用户举报邮件。相关运维人员可通过Shell(壳)命令或脚本语言对用户举报数据系统记录的用户行为日志进行关键词提取,以查看相关类型的用户举报邮件,并从中总结出用户举报邮件的特征数据,以进行反垃圾过滤规则的设定或升级。其中,用户举报邮件的特征数据也就是能反映用户举报邮件的特征的一些词语,相关运维人员可将这些词语设定为反垃圾过滤规则中的规则词,以将包含这些规则词的用户举报邮件作为垃圾邮件进行标识或拦截。
然而,现有技术中确定反垃圾过滤规则中规则词的过程中,相关运维人员直接从大量的用户行为日志中提取用户举报邮件,人为对用户举报邮件的特征数据进行分析并从中确定规则词,这种方式耗时耗力,计算量较大,反垃圾过滤规则升级效率较低。而且相关运维人员很难逐一查看所有的用户行为日志中的用户举报邮件,使得该方式易造成数据漏查,进而使得基于该方式得出的反垃圾过滤规则的有效性可能较差,造成用户举报邮件中的一部分仍然不会被设定的反垃圾过滤规则过滤掉,从而不利于反垃圾工作的进行。
因此,有必要提供一种反垃圾过滤规则升级方法,该方法既可以节省人力,又能够提高升级效率和反垃圾过滤规则的有效性。
发明内容
针对上述现有技术存在的缺陷,本发明提供了一种反垃圾过滤规则升级方法和装置,用以节省人力,提高反垃圾过滤规则升级效率和反垃圾过滤规则的有效性。
根据本发明的一个方面,提供了一种反垃圾过滤规则升级方法,包括:
对当前获取的用户举报邮件的邮件文本进行去噪、分词处理后得到该用户举报邮件的词语集合;
将所述词语集合中与逆向文件频率IDF词典中的词语相匹配的词语确定为该用户举报邮件的有效词;
对于该用户举报邮件的每个有效词,统计出该有效词在该用户举报邮件的邮件文本中的词频TF值,并根据统计出的TF值与所述IDF词典中该有效词的IDF值,计算出该有效词的权重值;
将计算出的各有效词的权重值由大到小进行排序,将排序靠前的设定数量的有效词作为该用户举报邮件的签名词;
根据得到的签名词升级所述反垃圾过滤规则中的规则词。
其中,所述IDF词典是预先确定的,以及所述IDF词典的确定方法,包括:
获取设定时间段内的用户举报邮件得到用户举报邮件集合;
对于所述用户举报邮件集合中的每封用户举报邮件,对该用户举报邮件的邮件文本进行去噪、分词处理,得到该用户举报邮件的词语集合,并对该用户举报邮件的词语集合中的各词语的词性信息进行标注;去除该用户举报邮件的词语集合中的停用词后,将该用户举报邮件的词语集合中词性信息与词性信息表中记录的词性信息相匹配的词语,确定为该用户举报邮件的保留词;
之后,对于所述用户举报邮件集合中的每封用户举报邮件,统计出该用户举报邮件的每个保留词在所述用户举报邮件集合中的各用户举报邮件中出现的频数;
对于统计出的频数小于设定阈值的每个保留词,计算该保留词在所述用户举报邮件集合中的IDF值后,将该保留词及其IDF值对应记录到所述IDF词典中。
较佳地,所述获取设定时间段内的用户举报邮件得到用户举报邮件集合,具体为:
在每次更新周期到达时,获取所述设定时间段内的用户举报邮件得到所述用户举报邮件集合。
较佳地,所述将排序靠前的设定数量的有效词作为该用户举报邮件的签名词之后,还包括:
将得到的签名词按照首字母进行排序,构成该用户举报邮件的签名词向量;
将当前构成的该用户举报邮件的签名词向量,与缓存中记录的之前获取的各用户举报邮件的签名词向量进行比较;若不同,则将当前构成的该用户举报邮件的签名词向量记录于所述缓存中;以及
所述根据得到的签名词升级所述反垃圾过滤规则中的规则词,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410102982.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:马铃薯的绿色高产种植方法
- 下一篇:一种异构多源数据的动态集成方法及系统