[发明专利]反垃圾过滤规则升级方法和装置有效
申请号: | 201410102982.5 | 申请日: | 2014-03-19 |
公开(公告)号: | CN103902673B | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 戴明洋 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京市京大律师事务所11321 | 代理人: | 张璐,方晓明 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种反垃圾过滤规则升级方法和装置,所述方法包括对当前获取的用户举报邮件的邮件文本进行去噪、分词处理后得到该用户举报邮件的词语集合;将词语集合中与IDF词典中的词语相匹配的词语确定为该用户举报邮件的有效词;对于该用户举报邮件的每个有效词,统计出该有效词在该用户举报邮件的邮件文本中的词频TF值,并根据统计出的TF值与IDF词典中该有效词的IDF值,计算出该有效词的权重值;将各有效词的权重值由大到小进行排序,将排序靠前的设定数量的有效词作为该用户举报邮件的签名词,根据得到的签名词升级反垃圾过滤规则中的规则词。本发明可以节省人力,提高反垃圾过滤规则升级效率和反垃圾过滤规则的有效性。 | ||
搜索关键词: | 垃圾 过滤 规则 升级 方法 装置 | ||
【主权项】:
一种反垃圾过滤规则升级方法,其特征在于,包括:对当前获取的用户举报邮件的邮件文本进行去噪、分词处理后得到该用户举报邮件的词语集合;将所述词语集合中与逆向文件频率IDF词典中的词语相匹配的词语确定为该用户举报邮件的有效词;对于该用户举报邮件的每个有效词,统计出该有效词在该用户举报邮件的邮件文本中的词频TF值,并根据统计出的TF值与所述IDF词典中该有效词的IDF值,计算出该有效词的权重值;将计算出的各有效词的权重值由大到小进行排序,将排序靠前的设定数量的有效词作为该用户举报邮件的签名词;根据得到的签名词升级所述反垃圾过滤规则中的规则词;其中,所述IDF词典是预先确定的,所述IDF词典的确定方法包括:获取设定时间段内的用户举报邮件得到用户举报邮件集合;对于所述用户举报邮件集合中的每封用户举报邮件,对该用户举报邮件的邮件文本进行去噪、分词处理,得到该用户举报邮件的词语集合,并对该用户举报邮件的词语集合中的各词语的词性信息进行标注;去除该用户举报邮件的词语集合中的停用词后,将该用户举报邮件的词语集合中词性信息与词性信息表中记录的词性信息相匹配的词语,确定为该用户举报邮件的保留词;之后,对于所述用户举报邮件集合中的每封用户举报邮件,统计出该用户举报邮件的每个保留词在所述用户举报邮件集合中的各用户举报邮件中出现的频数;对于统计出的频数小于设定阈值的每个保留词,计算该保留词在所述用户举报邮件集合中的IDF值后,将该保留词及其IDF值对应记录到所述IDF词典中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410102982.5/,转载请声明来源钻瓜专利网。
- 上一篇:马铃薯的绿色高产种植方法
- 下一篇:一种异构多源数据的动态集成方法及系统