[发明专利]一种检测网络水军以及找到网络水军的方法有效
申请号: | 201110418586.X | 申请日: | 2011-12-14 |
公开(公告)号: | CN102571484A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 周异;申沛;陈凯;宋利;杨小康 | 申请(专利权)人: | 上海交通大学 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/08 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 网络 水军 以及 找到 方法 | ||
1.一种检测网络水军的方法,其特征在于具体包括:
第一步,帐号特征模块对帐号特征向量进行描述,这个向量包括多维;
第二步,帐号检测模块对收集的帐号,根据帐号特征向量符合机器人帐号特性的多少来检测网络水军;
上述步骤中,用R表示机器人特征显著性,帐号的特征描述向量有多个维度,第i个维度有一个权值a[i],被判断满足该维度条件的帐号会获得a[i]的权值加成,即R=R+a[i],当最终权值R>Rmax,则该帐号为机器人帐号。
2.根据权利要求1所述的一种检测网络水军的方法,其特征在于:所述帐号特征模块,其中帐号特征描述向量维度包括:
向量维度1:帐号的关注人数是否异常;
向量维度2:关注人数与粉丝数的比值是否异常;
向量维度3:帐号所发原创微博的文字内容是否为抄袭所得;
向量维度4:帐号所发图片内容是否为抄袭所得;
向量维度5:帐号转发微博是否不带评论;
向量维度6:帐号是否发广告和垃圾信息;
向量维度7:帐号所发评论是否为抄袭;
向量维度8:帐号发帖内容的是否相似度高;
向量维度9:帐号发帖频率是否异常;
向量维度10:帐号发帖间隔是否异常。
3.根据权利要求1或2所述的一种检测网络水军的方法,其特征在于:所述帐号检测模块检测网络水军,具体流程如下:
1)向量维度1:帐号的关注人数异常;
如果关注人数Nforward>FMAX,FMAX=300,则判断满足机器人特征,R=R+a[1],a[1]=5;
2)向量维度2:关注人数与粉丝数的比值异常;
如果关注人数与粉丝数的比值K>Kmax=5,或者K<Kmin=0.2,则判断满足机器人特征,R=R+a[2],a[2]=3;
3)向量维度3:帐号所发原创微博的文字内容为抄袭所得;
从帐号微博中选一句话出来进行搜索,把所有搜索出来的原创微博进行一种聚类,每一类中微博发布时间Wtime最小的微博是原创微博,而对于其余微博,如果相似度L>Lmax,则是抄袭微博;获得除本帐号以外所有被认为抄袭了微博的帐号ID,转到1)步,Lmax=90%;如果该帐号微博相似度L>Lmax,则判断满足机器人特征,R=R+a[3],a[3]=4;
4)向量维度4:帐号所发图片内容为抄袭所得;
通过图像处理技术判断图片中如果否有他人logo或者相互重叠的logo,则判断满足机器人特征,R=R+a[4],a[4]=4;
5)向量维度5:帐号转发微博不带评论;
不加评论的概率超过P>Pmax=95%,则判断满足机器人特征,R=R+a[5],a[5]=2;
6)向量维度6:帐号发广告和垃圾信息;
通过语义识别判断出帐号的评论是否为广告,对于有链接的回复获取其网址,打开网址,判断该回复是不是在为这个网站打广告,如果判断成功,则判断满足机器人特征,R=R+a[6],a[6]=10;
7)向量维度7:帐号所发评论为抄袭;
对被该帐号转发和评论的原微博的所有回复进行分析,首先对回复进行聚类,从而每一类中评论时间Rtime最小的回复认定为原创回复,回复与原创微博的相似度RS>RSmax的认为是抄袭回复,对除本帐号以外的所有RS>RSmax的ID,转到1)步,如果本帐号RS>RSmax=90%,则判断满足机器人特征,R=R+a[7],a[7]=4;
8)向量维度8:帐号发帖内容的相似度高;
遍历帐号所有微博,使用聚类,如果某一类中微博数量N>Nmax=50,则判断满足机器人特征,R=R+a[8],a[8]=4;
9)向量维度9:帐号发帖频率异常;
遍历帐号所有微博,获取其发表时间,如果在任何至少1分钟时间内发帖频率F>Fmax=6条/min,则判断满足机器人特征,R=R+a[9],a[9]=3;
10)向量维度10:帐号发帖间隔异常;
遍历帐号所有微博,获取其发表时间,发帖时间规律性RE>REmax=10,则判断满足机器人特征,R=R+a[10];RE的获取方法为:把所有微博时间做差,然后以秒为单位,若出现连续5以及以上个时间,这一组数字的方差小于1,则RE=RE+1,RE初值为0,a[10]=3;
当R>Rmax时,认为该帐号为机器人帐号,即为网络水军,Rmax=10。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110418586.X/1.html,转载请声明来源钻瓜专利网。