[发明专利]反垃圾过滤规则升级方法和装置有效
申请号: | 201410102982.5 | 申请日: | 2014-03-19 |
公开(公告)号: | CN103902673B | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 戴明洋 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京市京大律师事务所11321 | 代理人: | 张璐,方晓明 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾 过滤 规则 升级 方法 装置 | ||
1.一种反垃圾过滤规则升级方法,其特征在于,包括:
对当前获取的用户举报邮件的邮件文本进行去噪、分词处理后得到该用户举报邮件的词语集合;
将所述词语集合中与逆向文件频率IDF词典中的词语相匹配的词语确定为该用户举报邮件的有效词;
对于该用户举报邮件的每个有效词,统计出该有效词在该用户举报邮件的邮件文本中的词频TF值,并根据统计出的TF值与所述IDF词典中该有效词的IDF值,计算出该有效词的权重值;
将计算出的各有效词的权重值由大到小进行排序,将排序靠前的设定数量的有效词作为该用户举报邮件的签名词;
根据得到的签名词升级所述反垃圾过滤规则中的规则词;
其中,所述IDF词典是预先确定的,所述IDF词典的确定方法包括:
获取设定时间段内的用户举报邮件得到用户举报邮件集合;
对于所述用户举报邮件集合中的每封用户举报邮件,对该用户举报邮件的邮件文本进行去噪、分词处理,得到该用户举报邮件的词语集合,并对该用户举报邮件的词语集合中的各词语的词性信息进行标注;去除该用户举报邮件的词语集合中的停用词后,将该用户举报邮件的词语集合中词性信息与词性信息表中记录的词性信息相匹配的词语,确定为该用户举报邮件的保留词;
之后,对于所述用户举报邮件集合中的每封用户举报邮件,统计出该用户举报邮件的每个保留词在所述用户举报邮件集合中的各用户举报邮件中出现的频数;
对于统计出的频数小于设定阈值的每个保留词,计算该保留词在所述用户举报邮件集合中的IDF值后,将该保留词及其IDF值对应记录到所述IDF词典中。
2.如权利要求1所述的方法,其特征在于,所述获取设定时间段内的用户举报邮件得到用户举报邮件集合,具体为:
在每次更新周期到达时,获取所述设定时间段内的用户举报邮件得到所述用户举报邮件集合。
3.如权利要求1所述的方法,其特征在于,所述将排序靠前的设定数量的有效词作为该用户举报邮件的签名词之后,还包括:
将得到的签名词按照首字母进行排序,构成该用户举报邮件的签名词向量;
将当前构成的该用户举报邮件的签名词向量,与缓存中记录的之前获取的各用户举报邮件的签名词向量进行比较;若不同,则将当前构成的该用户举报邮件的签名词向量记录于所述缓存中;以及
所述根据得到的签名词升级所述反垃圾过滤规则中的规则词,具体包括:
当所述缓存中记录的签名词向量达到设定数量或者在每次升级周期到达时,根据所述缓存中记录的各签名词向量,升级所述反垃圾过滤规则中的规则词,之后将所述缓存清空。
4.如权利要求1-3任一所述的方法,其特征在于,所述对当前获取的用户举报邮件的邮件文本进行去噪、分词处理,具体包括:
去除所述当前获取的用户举报邮件的邮件文本中的特殊符号、标点符号、空格,并运用条件随机场CRF算法对所述当前获取的用户举报邮件的邮件文本进行分词处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410102982.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:马铃薯的绿色高产种植方法
- 下一篇:一种异构多源数据的动态集成方法及系统