[发明专利]一种用于社区网络中检测垃圾帖子的方法与设备在审
申请号: | 201010214186.2 | 申请日: | 2010-06-29 |
公开(公告)号: | CN102315952A | 公开(公告)日: | 2012-01-11 |
发明(设计)人: | 舒迅;帅帅;尹佳;袁聃;方勇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08;G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 社区 网络 检测 垃圾 帖子 方法 设备 | ||
1.一种用于检测社区网络中垃圾帖子的方法,其中,包括:
a.根据发帖用户的发帖行为特征来判断其所发帖子是否为垃圾帖子。
2.根据权利要求1所述的方法,其中,所述步骤a包括:
a1.获取该帖子的发帖用户的发帖行为特征;
a2.基于第一预定规则根据所述发帖用户的发帖行为特征判断该帖子是否为垃圾帖子。
3.根据权利要求1所述的方法,其中,所述步骤a还包括:
a1’.获取所述帖子中的内容关键信息;
a2’.根据所述内容关键信息来获取该发帖用户与该帖子有关的发帖行为特征;
a3’.根据发帖用户与该帖子有关的发帖行为特征来判断所述帖子是否为垃圾帖子。
4.根据权利要求2或3所述的方法,其中,所述发帖用户的发帖行为特征包括以下至少任一项:
-发帖人的发帖频率;
-发帖人发帖所在贴吧的信息;
其中,所述第一预定规则相应地包括以下任一项:
-发帖人的发帖频率超出第一预定阈值;
-发帖人发帖所在社区网络的数目超出第二预定阈值。
5.根据权利要求4所述的方法,其中,还包括:
-根据所述判断结果,并通过该社区网络管理员的反馈来相应调整所述第一预定阈值或第二预定阈值。
6.根据权利要求3至5中任一项所述的方法,其中,所述获取发帖用户的发帖行为特征的步骤还包括:
-根据所述发帖用户的标识信息在发帖行为特征库中查询,以获取该发帖用户的所述发帖行为特征。
7.根据权利要求6所述的方法,其中,还包括:
-根据判断结果来更新所述发帖行为特征库中该发帖用户的所述发帖行为特征。
8.根据权利要求2至7中任一项所述的方法,其中还包括:
c获取该帖子的外部特征;
其中,所述步骤a还包括:
-基于第二预定规则对帖子的外部特征进行判断并结合用户的发帖行为特征来判断所述帖子是否为垃圾帖子。
9.根据权利要求8所述的方法,其中,所述外部特征包括以下至少任一项:
-所述帖子的内容重复度;
-与所述帖子具有相同或相似内容的其他相似帖子所在社区网络的数目;
-与所述帖子具有相同或相似内容的其他相似帖子的发放频率;
其中,所述第二预定规则相应地包括以下至少任一项:
-所述帖子的内容重复度是否超出第三预定阈值;
-所述其他相似帖子所在社区网络的数目是否超出第四预定阈值;
-所述其他相似帖子的发放频率是否超出第五预定阈值。
10.根据权利要求2至9中任一项所述的方法,其中,所述步骤a还还包括:
-基于预定语义规则对该帖子的内容进行判断并结合用户的发帖行为特征来判断所述帖子是否为垃圾帖子;
其中,所述预定语义规则包括:
-所述帖子内容是否满足语法规则;
-所述帖子内容中是否含有垃圾词汇;
-所述帖子内容中是否含有地址信息。
11.根据权利要求10所述的方法,其中,所述地址信息包括:网页地址链接、电话号码、或QQ号码。
12.根据权利要求1至11中任一项所述的方法,其中,所述方法还包括:
当判断所述帖子为垃圾帖子,则根据预定处理规则对其进行处 理。
13.一种用于检测社区网络中垃圾帖子的设备,其中,包括:
帖子检测装置,用于根据发帖用户的发帖行为特征来判断其所发帖子是否为垃圾帖子。
14.根据权利要求13所述的设备,其中,所述帖子检测装置包括:
第一获取装置,用于获取该帖子的发帖用户的发帖行为特征;
判断装置,用于基于第一预定规则根据所述发帖用户的发帖行为特征判断该帖子是否为垃圾帖子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010214186.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数字发送和/或接收设备及其方法
- 下一篇:一种带磁棒的挑选台